本周,又是一年一度的高性能计算大会ISC。6月23日,又逢超级计算机TOP500榜单更新的时间。根据TOP500刚刚发布的超算TOP500榜单,中国部署了226台位列第一,美国部署了114台名列第二,日本以30台位居第三。
2020年6月更新的TOP500超算系统排名
细看这份最新的榜单,可以发现TOP10的超级计算机中有8台采用了英伟达GPU、InfiniBand网络技术,或同时采用了两种技术。TOP500榜单的系统中,有333套(三分之二)采用了英伟达的技术。
TOP500超算系统采用NVIDIA GPU、Mellanox网络技术,或同时采用了这两种技术数量
三年前的2017年6月,TOP500榜单使用英伟达和Mellanox(被英伟达以69亿美元收购)的系统为203套,不到TOP500个超算系统的一半。为什么在超算领域英伟达能进展如此迅猛?TOP100超算为何要选英伟达?
高速数据互联技术普及
英伟达愿意以高价收购Mellanox的重要原因是高速数据互联在大数据时代变得越来越重要,在超算系统里尤为明显。自2019年11月以来,TOP500榜单上使用HDR InfiniBand的系统数量几乎增加了一倍。共有141台超级计算机使用了InfiniBand,自2019年6月以来增长了12%。
如今,TOP500榜单上有将近四分之三(74%)的全新InfiniBand系统采用了NVIDIA Mellanox HDR 200G InfiniBand,这是智能高速数据互联技术迅速普及的一个体现。另外,在TOP500超级计算机中,有305套系统使用了NVIDIA Mellanox InfiniBand和Ethernet网络(占61%)。
InfiniBand为排名前10的超级计算机中的7台提速
ISC期间,英伟达又宣布推出Mellanox UFM Cyber-AI平台,新的平台运用AI分析技术检测安全威胁和运行问题并预测网络故障,能够大幅减少InfiniBand数据中心的停机时间。
收购Mellanox和智能高速数据互联迅速普及是让英伟达的产品在TOP500榜单中比例迅速提升的一个关键,但作为超算系统,性能更为关键。
超高性能系统像积木一样搭建
特别是,当下AI和分析已成为科学计算中的新需求,全球各地的研究者都正在使用深度学习和数据分析预测各种最具潜力的领域,进而开展实验。GTC2020上,英伟达就表示位于美国阿贡国家实验室的研究者使用24台NVIDIA DGX A100系统组成的集群对数十亿种药物进行扫描,以寻找COVID-19的治疗方法。
英伟达最新发布的安培(Ampere)架构GPU A100正是推动超算系统选用英伟达产品的关键之一。在一台6U服务器中集成了8颗A100 GPU以及NVIDIA Mellanox HDR InfiniBand网络技术的NVIDIA DGX A100 AI系统单节点性能达到了创纪录的5 petaflops。由140台 DGXA100系统组成的新一代DGX SuperPOD的AI算力更是高达700 Petaflop。
这对于竞争已经到了百万兆级超算而言,意义重大,并且,这个系统具有很好的扩展性。英伟达表示, DGX SuperPOD架构设计展示了如何像搭积木一样使用高性能NVIDIA Mellanox InfiniBand交换机连接20台DGX A100系统。4名操作人员仅需不到1个小时,就能组装起一套由20台系统组成的DGX A100集群,创建出一套性能可以达到2-petaflops的系统。
据悉,通过添加NVIDIA Mellanox InfiniBand交换机层,英伟达工程师将14套分别配置有20台DGX A100系统的模块组的相连接,打造出了Selene。Selene系统具有:
280台 DGX A100系统
2240颗NVIDIA A100 GPU
494台NVIDIA Mellanox Quantum 200G InfiniBand交换机
56 TB/s的网络架构
7PB的高性能全闪存
Selene最重要的性能规格之一是可以提供超过1 exaflops的AI性能。并且,在TPCx-BB关键数据分析基准测试中,使用了16台DGX A100系统就创造了新纪录,性能表现高出其他系统20倍。
在ISC 2020期间,英伟达还宣布推出PCIe版本的A100,为的是补充上月发布的四卡和八卡NVIDIA HGX A100配置,这样,服务器制造商就能够提供从内置单个A100 GPU的系统到内置10个或10个以上GPU的服务器,进一步更好地满足超算系统构建需求。
除了性能,TOP500超算系统也非常关注能耗,这也是英伟达能吸引超算系统制造商的另一大原因。
能效平均提升2.8倍
根据英伟达的说法,在能效方面,TOP500超算使用英伟达GPU的系统与不使用的相比,能效(以gigaflops/watt为单位)平均高出2.8倍。最能证明这个优势的是上面提到的英伟达内部研究集群新成员Selene。
据悉,Selene在Linpack基准测试中以27.5 petaflops的性能表现,在最新Green500榜单中排名第二,TOP500榜单中排名第七。Selene的功耗为20.5 gigaflops/watt,与Green500榜单上的第一名相差不大,但排名第一的MN-3系统体积更小,性能表现排在第394位。
NVIDIA GPU平均提高TOP500超级计算机能效2.8倍
值得一提的是,Selene是TOP100系统中唯一突破20 20 gigaflops/watt能效表现大关的系统,也是全球性能排名第二的工业超级计算机,仅次于意大利能源巨头Eni S.p.A.的No. 6 系统。
而Selene的能效比TOP500系统的平均表现比未使用英伟达GPU的超算系统高出了6.8倍。这种性能和能效是归功于A100 GPU中的第三代Tensor Core核心,最新一代Tensor Core可以为传统的64位数学模拟及精度较低的AI工作提供加速。
雷锋网小结
高性能计算处理器是一家公司产品性能领导力的体现,更是生态实力的体现。英伟达在ISC 2020期间宣布,今年夏天预计有30款搭载A100的服务器上市,年底还会有20多款系统上市。包括华硕、Atos、思科、Dell Technologies、富士通、技嘉科技、HPE、浪潮、联想、One Stop Systems、Quanta/QCT和Supermicro。
黄仁勋在GTC2020上强调,DGX A100系统可以实现高利用率和低总拥有成本。当以高售价广为人知的英伟达高性能GPU开始强调总体拥有成本和能效时,对于市场时的其他竞争者而言无疑是一个坏消息,这也正是吸引更多超算系统使用英伟达产品的关键因素。
并且,英伟达也推出了为安培架构和A100优化的软件支持,包括CUDA 11、50多个CUDA-X库的新版本; 多模式对话式AI服务框架NVIDIA Jarvis;深度推荐应用框架 NVIDIA Merlin; RAPIDS开源数据科学软件库套件;NVIDIA HPC SDK。
正在通过软硬件产品帮助开发者构建并加速HPC、基因组学、5G、数据科学、机器人学等领域的应用的英伟达,未来重点的提升方向会在哪?