英特尔的Aurora超级计算机未能成为世界上最强大的超级计算机 - AMD的Frontier仍然是领导者
在最新的全球最快超级计算机Top500排名中,基于英特尔的Aurora超级计算机未能超过基于AMD的Frontier超级计算机,位居第二。然而,Aurora在旨在衡量AI性能的HPL-MxP基准测试中处于领先地位。因此,Aurora是世界上最快的AI超级计算机,性能为10.6 AI Eflops。
Aurora超级计算机仍然无法满负荷运行。据悉,该机在组件运行、冷却系统、操作错误、网络基础设施不稳定等方面面临各种问题。Aurora是在九年前宣布的。在第一次迭代中,系统从未组装过。超级计算机的第二个版本是在五年前宣布的,机器的最后一个组件仅在11个月前安装。
Aurora 超级计算机分为 10,624 个集群,总共包含 21,248 个中央和 63,744 个 GPU。根据最新数据,安装这台超级计算机的阿贡国家实验室(ANL)再次无法在Linpack测试中评估其全部性能潜力,该测试对世界上最强大的Top500超级计算机进行了排名。
在运行 87% 的 Aurora 组件(10,624 个可用集群中有 9234 个活动集群)的情况下,Aurora 实现了 1.012 Eflops,打破了百万兆次级障碍。这巩固了它在 Top500 榜单上的第二位。Aurora首次参与绩效排名是在六个月前。当时,超级计算机只运行了一半可用的计算单元,这使得它能够展示 585.34 petaflops 的结果。
在全功率下,Aurora在Linpack计算性能测试中应该比Frontier更快。但是,超级计算机仍然需要额外的调整才能满足声明的特性。目前,得分为 1,206 Eflops 的 Frontier 比 Aurora 快约 19%。然而,根据 Tom's Hardware 的说法,考虑到线性可扩展性,即使使用了未使用的 13% 计算单元,Aurora 仍然无法击败 Frontier。
英特尔广泛吹捧Aurora的理论峰值性能为2 Eflops(Rpeak),但超级计算机的性能是通过持续性能指数(Rmax)来衡量的。Frontier 在 Linpack 中以持续性能的形式提供了 70% 的峰值性能,而 Aurora 实现了 51% 的峰值性能。也许在未来,经过所有必要的改进,情况会变得更好。阿贡国家实验室希望这迟早会发生。他们指出,已经宣布了Aurora的合同履约目标,该目标高于Frontier。
尽管如此,Aurora 还是在 HPL-MxP 混合精度 AI 性能测试中超越了所有竞争对手,使用 89% 的计算单元实现了 10.6 Eflops 的结果。在此测试中,精度较低的计算(FP32 和 FP16)优于 Linpack (FP64)。HPL-MxP被认为可以更好地反映实际AI工作负载的性能,以及与此环境相关的越来越多的其他应用程序。另一方面,FP64在很大程度上反映了与科学计算相关的系统的性能。
然而,Aurora在HPL-MxP中的领导地位可能会在不久的将来受到破坏。瑞士国家计算中心(CSCS)的阿尔卑斯超级计算机基于Nvidia Grace Hopper超级芯片。该系统尚未参与评级,但声称其 AI 性能达到 20 Eflops 水平。预计到今年 6 月底,所有 10,752 个 Grace Hopper 超级芯片都将安装在其上。
在高性能共轭梯度 (HPCG) 测试中,Aurora 超级计算机也表现出令人印象深刻的效率,该测试也比 Linpack 更能代表现实世界的工作负载应用程序。它仅占运行计算单元总数的 38.5%,在本次测试中排名第三。在旨在评估系统在处理大型数据集方面的性能的 Graph500 基准测试中,Aurora 排名第五。但是,ANL没有具体说明该测试使用了多少系统。
Aurora没有进入Green500最节能的超级计算机名单,这并不奇怪。其峰值功耗高达 60 MW,是 Frontier (29 MW) 功耗的两倍。
自安装最后一个 Aurora 硬件单元以来,已经过去了 10 个月。但是,该系统尚未满负荷运行。Tom's Hardware 求助于英特尔以澄清情况。
“自从我们在 2023 年 6 月底(10 个月前)完成了最后一个计算节点的交付以来,我们现在正在与阿贡国家实验室和 HPE 合作,以全面稳定和配置系统、计算节点、存储、结构、电源和冷却系统。我们还在积极努力解决稳定性问题,例如硬件故障、软件错误、冷却系统故障、电源问题、网络基础设施稳定性、操作错误和环境因素,“英特尔发言人告诉 Tom's Hardware。
阿贡国家实验室和英特尔尚未准备好谈论Aurora何时全面投入运营。
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/527249.html