SC21大会：中国超级计算机向量子性能继续迈进

在本届SC21大会上，中国团队拿下享有盛誉的戈登贝尔奖（相当于超级计算领域的诺贝尔奖）。该团队的论文《打破量子霸权：使用新神威超级计算机实现随机电路的实时模拟》描述了研究人员如何运用最新超级计算机模拟随机量子电路。

除了文章本身的份量以外，标题显然也将矛头指向了谷歌于2019年在其Sycamore量子计算机上提出的极富争议的“量子霸权”表述。Sycamore在200秒内完成了基准测试，并称同一测试在Summit这类经典超级计算机上需要1万年才能计算完成（但IBM很快做出驳斥，表示实际时长应该是2.5天左右）。而新一代中国超级计算机配合中国团队的算法研发，使得同一任务在经典超算上仅耗时304秒即告完成。虽然量子计算机似乎仍然领先于经典计算机，但二者的差距正在缩小。

论文以神威超级计算机的1.2百亿亿次单精度计算性能为基础。虽然文章并未证实之前传闻称中国超级计算机已经实现百亿亿级算力（基准测试中的百亿亿次仅为单精度运算，而真正的「百亿亿级」则要求实现同等级别的双精度性能），但新一代神威超级计算机仍无疑将跻身全球最强超算之列。对于这台尚未正式定命的神威家族最新成员，我们唯一明确的就是系统中使用到共4190万个Sunway RISC处理器计算核心。

新一轮超算五百强

人们普遍预计，全球首个百亿亿级超算系统即将出现，但本届超算五百强榜单中的前十名几乎没有变化。中国的新一代神威系统还未上榜，而美国的1.5百亿亿级Frontier系统则预计在“2021年末”亮相，看来目前还有不少准备工作要做。

在新神威和Frontier两大系统均未出战的情况下，超算五百强榜单的桂冠仍由卫冕冠军Fugaku保有。这位来自日本的超算王者自2020年6月就一直稳居榜首，其在HPL（高性能Linpack）基准测试中得分为442千万亿次/秒，达到世界排名第二的Summit超算系统的三倍。

SC21大会：中国超级计算机向量子性能继续迈进 Frontier的预期性能为1.5百亿亿次，也将成为全美第一个百亿亿级超算系统

在本轮新榜单中，唯一的变数就是位列第十的新选手——来自Microsoft Azure的Voyager-EUS2。这套系统搭载AMD Epyc Rome CPU与英伟达A100 GPU。

而五百强榜单中最值得关注的是新近上榜的四套俄罗斯新系统，排名在第19位到第43位之间。

从各国上榜情况来看，中国在五百强排名中的占比由186个系统下降至173个，而美国则从123个增加到150个。

MLPerf HPC得分

SC21大会还公布了AI基准测试套件MLPerf HPC的结果。这些测试专门衡量AI性能，也代表着AI技术在科学类工作负载中的占比正不断攀升。与上一轮榜单相比，最佳基准测试结果提升了4至7倍，可以想见如今的超算系统在硬件、软件与系统规模上都有大幅提升。

除了一位特殊选手，其他所有超算系统均由英伟达GPU加速器提供支持，具体涵盖P100、V100以及A100（这位例外就是Fugaku，它采用基于ARM架构的CPU，并未使用任何加速器）。

英伟达在CosmoFLow和DeepCAM基准测试中同样横扫一切。CosmoFlow主要用于根据宇宙学图像数据执行物理量估算，冠军在CosmoFlow任务处理中拿下8.04分钟的好成绩，使用1024个英伟达A100-SXM4-80GB GPU执行训练。（Fugaku凭借512个CPU用于114.35分钟才完成同一任务。）

DeepCAM则用于识别气候模拟数据中的飓风与大气河。致胜的关键同样是英伟达，新系统以两倍于上届冠军的GPU数量在1.67分钟内完成了基准测试。

劳伦斯伯克利国家实验室赢下新的OpenCatalyst基准测试，他们使用512个40 GB版本英伟达A100-SXM4 GPU在111.86分钟内完成了训练。OpenCatalyst主要用于预测超级系统通过图连接性预测分子构型的能力。这方面测试之所以如此重要，是因为它反映了材料科学与化学类工作负载的最新技术水平。这种任务拥有区别于其他神经网络类型的计算特性，其拥有突出的稀疏性，而且不同数据集往往令神经网络形成不同的结构和连接性，进而导致负载不平衡（负载难以有效并行）。

本轮竞赛还引入了新的性能指标。弱缩放模式代表系统能够同时训练同一模型的多个实例，用以探索能否在应用场景中实现资源共享（例如共享存储系统和互连带宽）。

多芯片封装GPU

就在本届SC21大会之前，不少半导体厂商抢先发布了一系列重大公告。

就在前段时间，AMD推出了第一款多芯片封装GPU。这款AMD Instinct MI200包含两个GPU晶粒，二者通过新的2.5D硅桥技术（即高架扇出桥，简称EFB）实现互连，可支持标准基板与封装技术（这一点与竞争对手的嵌入式硅桥架构有所不同）。

MI200将是第一款基于AMD第二代CDNA2架构打造的GPU，这种架构针对计算密集型HPC与AI工作负载进行了专门优化。与去年发布的第一代产品MI100相比，新设备的尺寸扩大为1.8倍，包含220个计算单元与880个矩阵核心。MI200将拥有多达8个HBM2e内存堆栈，这使其成为全球首款拥有128 GB HBM2e的GPU，内存容量可达上代MI100的4.7倍、内存带宽则达到2.7倍。MI200的FP64向量运算峰值性能为47.9万亿次，FP64矩阵数学运算的峰值性能则为95.7万亿次。

SC21大会：中国超级计算机向量子性能继续迈进 AMD的MI200成为全球首款多芯片封装GPU

还有消息称，美国首台百亿亿级超级计算机Frontier就将采用AMD Instinct MI200 GPU。

作为新王者Frontier的所在地，橡树岭国家实验室主任Thomas Zacharia解释道，“着眼于当前一代面临的核心挑战，特别是能源转型、气候变化以及正在肆虐全球的新冠疫情等现实难题，Frontier将帮助我们运用机器的力量与之对抗，而这股力量的来源正是AMD处理器。MI200将成为科学家们所能使用的最强处理器，其单一GPU就要比现任美国最强超算Summit中的整个节点更加强大。”

Zacharia还提到，Frontier将很快上线，并于明年年初向科学家们开放。

模拟地球

在英伟达GTC大会的开场演讲中，公司CEO黄仁勋表示将建造一台新的超级计算机“地球2号”（Earth 2），通过为地球构建数字孪生的方式模拟并预测气候变化。黄仁勋随后透露，地球2号将完全由英伟达产品支持，其规模与公司内部的Selene超级计算机及用于医学研究的Cambridge-1 UK系统大致相同。他还补充称，地球2号的特殊架构设计将使其成为“有史以来最节能的超级计算机”。目前英伟达仍在考量这台新超算的具体选址。

SC21大会：中国超级计算机向量子性能继续迈进

地球2号有望帮助人类第一次掌握模拟和预测气候变化的能力