投稿问答最小化  关闭

万维书刊APP下载

A卡的锅?世界第一超算Frontier,启动至今无法连续工作一天

2022/10/26 11:22:34  阅读:186 发布者:

转载:机器之心 

Frontier 上线给科学家提供算力的日期已经推迟到了明年。

在全球范围内,很多机构都在争相构建 E 级(每秒百亿亿次)超级计算机,性能指数级跨越的超算预计会在人工智能、医疗、气象等领域发挥重大作用,是超级电脑工程的重要里程碑。

世界第一台 E 级超算是美国橡树岭国家实验室(ORNL)的「Frontier」,它也是当前全球超算 TOP500 榜单的第一名,但虽说性能领先,Frontier 却远远无法达到超算应有的效率。

近日,一些海外媒体接连报道称,当前世界最快的超算的硬件出现了大量故障,机器甚至无法运行一整天。

ORNL Frontier 目前最多只能产生 60% 1 FP64 ExaFLOPS 的算力,而该系统旨在提供 1.685 FP64 ExaFLOPS。虽然官方还没有就具体问题给出任何消息,但一些信息正被曝光。

在最新一期,2022 6 月的 TOP500 榜单中,Frontier 位列第一名,其标称的速度是 1.685 FP64 ExaFLOPS

橡树岭实验室的 Frontier 是业界首个使用 AMD 64 EPYC Trento 处理器、Instinct MI250X 计算 GPU Hewlett Packard EnterpriseHPE)的 Slingshot 互连,能以 21 兆瓦功率提供高达 1.685 FP64 ExaFLOPS 峰值性能的系统。HPE 构建了该系统并使用了 Cray EX 架构,它专为横向扩展应用程序设计,适用于超高速超级计算机。

虽然从表面上看 Frontier 性能强大,并且系统硬件部分已经交付,但当前面临的问题似乎一直让机器无法保持正常运转,并且无法稳定提供即使是不及标称的 1 FP64 ExaFLOPS 的性能供研究人员使用。

OLCF 项目主管 Justin Whitt 表示:「我们正在解决硬件问题,并确保找出关键问题所在。目前看来主要是规模问题和应用程序的广度问题,系统运行的项目过大,很难让所有硬件协同运行,通常间隔几小时就会出现一次故障。」从某种意义上说,Frontier 是在超级计算机的期末考试上成绩不佳。

实际上,关于 Frontier 潜在硬件故障的流言已经出现了很长一段时间。InsideHPC 曾报道称有人说故障原因是系统遇到了 Slingshot 互连的问题。此外,还有人表示今年 AMD Instinct MI250X 计算 GPU 的可靠性不如预期,并且具有更多流处理器和高时钟的 X 版本仅适用于特定客户。

Justin Whitt 没有证实该系统遇到了 Instinct Slingshot 等任何特定问题,他只是强调该机器存在许多硬件问题。

OLCF 负责人表示:「很多挑战都集中在 GPU 上,GPU 是非常重要的硬件组成部分。但我们对 AMD 的产品尚且没有太多担忧。」

橡树岭国家实验室的 Frontier 超级计算机并不是唯一一个使用 HPE Cray EX 架构、 Slingshot 互连、AMD EPYC CPU AMD Instinct 计算 GPU 的系统,芬兰的 Lumi 超级计算机(Cray EX , EPYC Milan, Instinct MI250X 计算 GPU) 能提供 550 PetaFLOPS 峰值性能,并已被 TOP 500 正式列为世界第三强大的超级计算机。也许对于此类使用上千万零件组成的超算来说,问题不是孤立的。

从官方论述来看,HPE AMD 已在今年秋季提前向 ORNL 交付了新的 Frontier 系统。美国能源部 E 级超算项目的 Mike Bernhardt 表示,ORNL Frontier 的全面集成将从明年开始提供给研究人员,但并未引述对 Frontier 超级计算机的全面启动有任何担忧或问题。

在错过了原先设定的 Deadline 后,Frontier 超级计算机计划于 2023 1 1 日全面投入运行。

人们都在期待 E 级超算带来的研究成果,不过伴随世界第一而来的还有部分怀疑。一些专家认为,在 E 级计算的竞争中 Frontier 比不上中国的两个计算机系统,后者的运营商还没有向 TOP500 提交测试结果。外媒 the Nextplatform 曾表示,神威海洋之光(oceanlite,太湖之光的升级版)和天河 3 号超算在 2021 3 月就达到了持续的 E 级算力。

去年 11 月的全球超级计算大会 SC21 上,来自中国的超算应用团队因「超大规模量子随机电路实时模拟」成果获得戈登 · 贝尔奖。该团队表示,研究基于的新一代神威超级计算机可提供每秒 4.4 百亿亿次的持续计算性能,是超算领域全世界当时已知的最高混合精度浮点计算性能。

专家们表示,中美之间的紧张关系可能是中国没有向 TOP500 提交测试结果的原因。

转自:arXiv每日学术速递”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com