【IT168 案例】 经过多年的尝试,图形处理单元(GPU)开始受到主流服务器厂商的重视,作为第一批在高性能计算()上采用GPU的一线服务器厂商,戴尔的应用和解决方案更有其独到之处。为进一步了解戴尔 GPU解决方案的特点及创新技术,IT168记者采访戴尔高性能计算高级顾问凌巍才。
GPU计算适合哪些应用?
GPU计算诞生之初,主要作为电子游戏等高速图形加速器,但服务器厂商很快发现它除了在游戏渲染方面有出色的表现外,在科学算方面也有先天性优势。
凌巍才谈道,带有GPU的混合架构的并行计算是高性能计算发展的趋势。高性能计算发展的最初,是一些大型的主机,CPU共享内存; 90年代末,基于Linux Cluster技术出现;最近几年,利用GPU进行科学计算成为一种新的发展趋势。
他指出, GPU是完全脱离开CPU的计算架构,计算核数非常多。一个CPU通常只有4核、6核、8核或者16个核,而在GPU里,Tesla一个卡上面就有448个核,所以GPU和CPU在物理架构上不同,这导致应用程序在不同架构上面跑的时候也有不同的特性。
GPU计算核数非常多,如一个Tesla M2075 的GPU卡有448个核,内存6GB,比较适合数据集不是很大、但是并行非常多的应用,比如基因序列比对等。
CPU处理的内存很大,有的达到512GB,甚至2TB,核数现在通常有4核、6核、8核等,很多个处理器在一起运行,这类架构比较适合数据集比较大、不好分块处理但有一定并行度的应用软件,比如说基因拼装等应用软件。
推荐阅读:
DELL GPU计算解决方案三大特色
和戴尔其他高性能计算解决方案一样,Dell的GPU计算解决方案也是遵循着开放、高效且高性价的原则。“开放“指的是戴尔要和业界其他厂商进行合作,为用户提供最好的解决方案,用户可以根据自己的需要来选择合适的方案,同时可以灵活扩展;”高效“是指戴尔提供的方案要正好满足用户的需要,从节能,简化管理和自动化等各个方面为客户降低总体拥有成本;”高性价比”是因为戴尔大量使用了标准化、通用化的技术,通过规模化生产降低客户成本。凌巍才表示,尽管目前几乎百分之百的OEM厂商都已经支持GPU计算,但戴尔作为GPU计算的首批尝试者,在GPU计算领域已经形成了自己的特色,主要体现在三个层面:
首先,DELL在GPU计算方面拥有很全的产品系列,可以为用户提供广泛的选择:一种是直接把GPU安装在机箱里,另一种是通过PCI卡来与GPU互连,第三种是提供专门的GPU服务器,比如新推出的C410x拥有16个GPU。戴尔不只是提供一种产品,而提供多种方案来供用户按照自己的需求进行选择。戴尔的产品涵盖支持GPU计算的、、和云计算服务器PEC,以及DELL 特有的扩展箱等等。
其次,DELL和领先的厂商合作与用户提供完整开放标准的解决方案,这些合作伙伴包括英特尔、AMD、Qlogic、Mellanox、Microsoft、Red Hat等。
另外,DELL在生命科学、石油勘探等领域都有相应的技术专家,可以为行业用户提供GPU应用软件的测试,并进行调优。
DELL在GPU方面的创新:独立的GPU扩展箱
除了提供基于GPU计算工作站、刀片服务器、机架式服务器之外,DELL还推出了一款新的方案:把GPU单独的放在一个GPU扩展箱里,并且这个扩展箱只放GPU卡,最多可以放16块,然后通过一个叫做HIC的接口卡连接到主机上面来运行。这样的解决方案有很多优点,其中很重要的一点是配置非常灵活,GPU的个数可以支持多达1至8台服务器和1至16个GPU卡,用户可以根据应用的环境灵活地选择:1:1、1:2、1:3、1:4 等多种一带多的方案。
一对多环境下的GPU测试结果
我们知道,应用程序如果可以在GPU上运行,那么,在多个GPU上运行时,可以增加计算的并行运行效率。日前,DELL跟一些行业客户合作,针对行业应用进行了一对多的GPU测试,也就是在一台主机带多个GPU来运行测试程序,并记录随着GPU数量的增加运行速度的增长情况。
主要测试了两类应用:一类生命科学里面基因序列分析应用—GPU-HMMER程序,测试结果显示,GPU数量为1、2和4个GPU的时候,速度基本上是线性增长的;还有一类是分子动力学(Molecular Dynamics,MD)应用——NAMD程序,测试环境是一个八个节点的InfiniBand集群,每个节点带两个GPU,测试结果表明它的线性增长很好。
如何应对ExaScale计算时代?
ExaScale已经成为高性能计算领域的一个不可避免的趋势,然而,随着计算规模的不断扩大,应用程序的可移植性、成本以及能耗等问题成为高性能计算用户心中永恒的痛。凌巍才表示,DELL将在平台开放性、降低产品价格、能耗优化等角度,帮助用户迈向ExaScale时代。
基于开放平台提供全面的解决方案。通过提供一个开放的平台和功能强大的产品系列和解决方案,凌巍才强调,服务器产品、网络产品和存储产品等所有的这些产品都采用开放的技术和产品,这样,用户就可以比较容易地基于这个开放进行应用程序的移植或二次开发。
降低产品成本。设备都是领先的产品和技术,包括英特尔和AMD的处理器、NVDIA的GPU卡、以及Infiniband技术,还有一些新的软件,并在这个基础上尽量降低产品的价格,向用户提供一整套的解决方案。
能耗优化。ExaScale计算时代的能耗问题是一个十分严峻的问题,DELL从系统角度进行能耗的优化,也提供了很多节能的技术和产品。比如,机架式服务器方面,DELL第11代服务器设计时专门针对CPU内存硬盘供电,所以在供电方面非常节能;在刀片上面也有能耗优化的设计,平均比其它的刀片产品在有工作负载的情况下可以节省25%的能耗;此外,C410X的GPU 箱采用了单独供电、散热等技术,其服务器就是通过一个或多个数据线连起来的,由于服务器和GPU扩展箱都是单独供电的,所以非常节能。
对GPU开发者的建议
凌巍才介绍道,一对多的模式的开发是一个趋势。现在有很多应用、软件都可以在网上下载,这些软件很多还没有GPU的版本。网友想使用GPU计算的话,可以先基于一些开源软件,或者基于已经有的软件进行二次开发,看看是否可以在多个GPU上运行,性能的加速比如何。
另一方面,基于GPU的集群计算也是一个发展方向,他建议有兴趣的网友可以把一些又实用价值的软件移植到GPU的集群上来,比如一些搜索、比对等并行度高的应用。
更多精彩文章请关注: