文章摘要
【关 键 词】 超级计算机、Frontier、科学研究、气候模型、AI研究
在美国田纳西州东部的山区,一台名为Frontier的超级计算机为科学家们提供了前所未有的研究机会,使他们能够探索从原子到星系的广泛领域。这台超级计算机由AMD的CPU和GPU组成,拥有5万个处理器,其中包括3.8万个GPU,其运算速度达到1.102 exaFLOPS,即每秒1.102百亿亿次浮点运算。这一速度不仅比10万台笔记本电脑同时工作还要快,而且在2022年首次亮相时,Frontier还创下了首次突破百亿亿次运算速度的纪录。
Frontier超级计算机的覆盖面积超过两个篮球场,其强大的计算能力是为了满足各领域前沿科学研究中模拟计算的需求。它擅长创建模拟,能够同时捕捉大尺度模式和小尺度细节,例如微小的云滴如何影响气候变暖的速度。研究人员可以登录Frontier,创建从亚原子粒子到星系的尖端模型,包括模拟蛋白质进行药物发现和涉及、模拟湍流以改进飞机发动机,以及训练能与谷歌、OpenAI竞争的开源大型语言模型(LLM)。
然而,Frontier在2023年4月的某一天出现了意外,其功耗急剧上升,峰值达到约27兆瓦,足以为大约1万个家庭供电。这给超级计算机的冷却系统带来了挑战,实验室主任Bronson Messer形容机器像“一条被烫伤的狗”一样在运行。尽管如此,Frontier在2023年拥有1744个用户,遍布18个国家,支持了至少500篇已公开发表的论文。
Frontier的机房内部类似于一个仓库,运转时发出稳定而轻柔的电子嗡嗡声。机房中共有74个机架,每个节点包含4个GPU和1个CPU。这种庞大的GPU数量是其快速运算速度的关键。实验室主任Messer形容这些GPU运行得非常快,但同时也“愚蠢至极”,因为它们可以一遍又一遍地做同一件事。这种通用性使得各领域的科学家都可以通过定制代码来运行GPU。
Frontier的运转需要一个工程团队进行持续监控,以确保其正常运转。建造这台超级计算机的工程师团队来自惠普公司,他们负责监控Frontier,判断是否存在故障迹象。大多数夜晚都是平静的,夜班人员Conner Cunningham通常只需要巡查几次,其余时间可以在工位上学习。
研究人员想要申请使用Frontier并不容易。科学主任Messer和其他3位同事负责评估和批准使用提案,去年共批准了131个项目,通过率约为1/4。申请人需要表明其项目需要利用整个超级计算机系统才能获批,一般用于对各种时间和空间尺度进行建模。Frontier每年共有约6500万个节点时可用,研究人员得到的最常见的分配额度为50万个节点时,相当于全系统连续运行三天。
Frontier的计算资源使研究人员能够进行更加雄心勃勃的“大科学”。例如,它可以在原子级精度模拟生物过程,如溶液中的蛋白质或核酸如何与细胞其他部分发生相互作用。今年5月,有学者用Frontier模拟了含有超过1550亿个水分子的水滴,这是有史以来规模最大的原子级模拟之一。研究人员还希望将这些高分辨率的模拟结果与X射线自由电子激光器的超快成像相结合,以加速发现。
气候模型也因Frontier变得更加精确。去年,气候科学家Matt Norman和其他研究人员使用Frontier运行了分辨率为3.25公里的全球气候模型,结合了分辨率更加精细的复杂云层运动。Frontier的计算能力对于创建长达数十年的预测模型至关重要,而且需要用上整个系统的算力才能做到。Frontier每天可以模拟1.26年,这个速度可以使研究人员能够创建比以前更准确的50年预测。
在更大的宇宙级尺度上,Frontier也能带来更高的分辨率。匹兹堡大学的天体物理学家Evan Schneider使用Frontier研究银河系大小的星系如何随着年龄的增长而演化。他们创建的星系模型跨越四个数量级,最大规模可达约10万光年。而在Frontier之前,以类似的分辨率模拟的最大结构是矮星系,质量约为五十分之一。
Frontier作为公共部门的设备,其地位独特,因为它是为数不多的不属于工业界的超级计算机。由于AI领域的研究需要庞大的算力,学术界和工业界的成果存在巨大鸿沟。2021年,96%的最大的AI模型来自工业界,平均而言,工业界模型的规模是学术模型的近30倍。这种差异在投资金额方面也很明显。美国的非国防公共机构在2021年提供了15亿美元支持AI研究,而同年全球工业界支出超过3400亿美元。Frontier等设施在AI领域发挥着至关重要的作用,让更多的人参与到技术开发中,共享成果。
然而,这场国家之间、科技公司和非营利机构间的算力基础设施竞赛仍在持续。橡树岭实验室已经在规划Frontier的继任者,名为Discovery,计算速度将提升3~5倍。Frontier相比2014年的最快的超级计算机天河二号A快了35倍,比2004年最快的超级计算机Earth Simulator快3.3万倍。研究人员仍然渴望更快的速度,但工程师们面临着持续的挑战,其中一方面就是能源。Frontier的能源效率相比Summit提升了4倍多,很大程度上是源于不同的冷却方案。Frontier使用室温水进行冷却,与Summit使用冷水不同。Frontier总能耗的大约3%~4%用于冷却,而Summit的这一比例为10%。能源效率一直是构建更先进超级计算机的关键瓶颈,而在可预见的将来,这个瓶颈估计会持续存在。
原文和模型
【原文链接】 阅读原文 [ 2558字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆