超级计算正在成为全球能耗大户,他们能否跨越零碳排放界限?
划重点
- 1包括超级计算机在内的高性能计算正在成为一个能源消耗者。超级计算的数据中心耗电量占全球总耗电量的1.5%至2%,大致相当于整个英国的耗电量。
- 2现代计算机可计算约10万亿次,耗电量与第二次世界大战后一次计算的耗电量相当。
- 3芬兰超算LUMI被放置在亚北极圈内,其中一个原因就是可以利用那里的清凉气体来节省冷却所需的电能。
- 4随着各国政府承诺减少温室气体排放,计算机行业试图找到一种方法,可以用更少的资源做更多的事情,提高产品的能效。AMD希望在2025年将其最强大的芯片效率提高到2020年的30倍。
基莫·科斯基博士基莫·科斯基博士在芬兰IT科学中心负责(Kimmo Koski)的眼中,LUMI(芬兰语言中的意思是雪)是欧洲最强大的超级计算机,位于卡贾尼镇,位于芬兰北极圈以南250公里。说到这个超级计算,科斯基说:“你会先注意到它很安静。”

去年,LUMI被投入使用,用于许多领域,如气候建模和寻找药物。它有成千上万个单独的处理器,每秒可以执行多达429千万亿次的计算操作。这使得它成为世界上第三快的超级计算机。它通过水力发电增加动力,其废热被用来帮助卡贾尼镇居民取暖,其二氧化碳排放几乎为零。
LUMI向我们展示了高性能计算。(HPC)未来,无论是在专用超级计算机上,还是在大多数因特网云基础设施上运行。在过去的十年里,在各种模拟技术的推动下,如机器学习、基因组测序、股市、核弹研发、天气预报等。,全球对高性能计算的需求急剧增加,这种需求很可能继续上升。同时,训练尖端人工智能模型所需的计算能力每五个月就会翻一番。
但是,所有这些研究和开发都对环境产生了影响。高性能计算(更广泛地说是全部计算)正在成为能源消费者。据国际能源机构估计,数据中心的功耗占全球总功耗的1.5%至2%,大致相当于整个英国的功耗。预计到2030年,这个比例将上升到4%。当政府承诺减少温室气体排放时,计算机行业正试图找到一种方法,使用更少的资源来做更多的事情,提高产品的能效。这项工作发生在三个层面:减少单个微芯片的功耗,在计算机上安装低功耗芯片,在数据中心采用低功耗计算机。
让我们从微芯片本身开始。在过去的80年里,数字计算机的效率有了很大的提高。现代计算机可以计算10万亿次左右,消耗的能量相当于第二次世界大战后计算的用电量。这种巨大的技术进步在一定程度上得益于行业对摩尔定律的坚持。摩尔定律是指集成电路中可容纳的部件数量每隔几年就会翻倍。
计算机越来越节能
在过去的几十年里,摩尔定律的另一个积极影响是,随着电路的缩小,它们也变得更加节能。这一效应被称为登纳德缩放定律(Dennard scaling),罗伯特·登纳德,当时在IBM工作的科学家。(Robert Dennard)这个名字命名,他在1974年写了一篇关于这个问题的论文。但是,在2005年左右,超微小组件的物理特性表明这种关系已经开始破裂。伴随着部件的缩小,计算机的效率仍在不断提高,但是它的速度已经大大放缓。
这样就迫使芯片制造商更加努力地追求过去免费获得的好处。由美国芯片设计公司AMD制造的LUMICPU是一种用于运行过程和协调机器的通用芯片。AMD和其竞争对手英特尔的CPU除了超级计算机之外,还增加了数据中心的动力,使互联网能够运行。塞缪尔·纳夫齐格,AMD产品技术架构师(Samuel Naffziger)据说,2010年,AMD将能效提升“放在首位”。
现在,AMD芯片采用了一系列技术,有助于降低功耗。它们覆盖着传感器,根据分配给它们的任务,对发送到电路各个部分的功率进行监控和最大限度的降低。其它改进集中在保证芯片在任何给定时间都能尽可能多地做有用的工作上,因为空闲电路存粹是在浪费电力。在2025年,AMD希望将更聪明的设计方法与较小的部件相结合,将其最强大的芯片效率提高到2020年的30倍。
另外一种选择是将工作从通用CPU转移到专门为更小范围的数学任务设计的专用芯片上。最为著名的是“图形控制部件”,简称GPU。GPU最初的开发目的是为电子游戏制作更时尚的图像,但是事实证明,现在它在许多任务上都很出色。这类任务可以转换成小块,每一小块都可以同时处理。类似的专用芯片越来越多地处理联网等任务,这些任务以前通常由CPU处理。
该系统级别的调整是提高效率的第二个有效方案。贾斯汀·霍塔德负责惠普企业的高性能计算(Justin Hotard)他说:“当你使用数千个CPU和GPU时,它们的连接方式会影响超级计算机的能效。
确切地说,如何最好地连接所有芯片仍然是一个引人注目的研究领域。向计算机其他地方的另一个芯片发送信号需要消耗大量的能量。因此,我们的目标是尽可能减少这种情况发生的频率,尽可能减少信号传播的距离。
惠普更喜欢一种叫做“蜻蜓拓扑”的结构,它是一种双层系统。这类结构中,芯片组以簇的形式相互连接,而这些簇则依次相互连接。该系统是模块化的,通过简单的添加新节点很容易扩展。巴利亚多利德大学计算机科学家弗朗西斯科·安杜贾尔今年2月(Francisco Andújar)同事们发表了一篇论文,经过大量的数学分析,他们发现蜻蜓的结构接近于高效超级计算机的理想设计。
而且,提高能效不需要以牺牲性能为代价。Top500.org网站根据速度和效率对超级计算机进行排名,今年6月发布的最新报告将LUMI列为世界上效率第七、速度第三的超级计算机。超算Frontier安装在田纳西州橡树岭国家实验室,是目前世界上最快的计算机,大约是LUMI的四倍。但是,Frontier在能效方面排名第六。
数据中心是最后一个可以改进的领域。在这个高科技领域,超级计算机和为互联网增加动力的普通服务器都在这里运行,计算会产生大量的热量。虽然新发现的重点是效率,但现代CPU或GPU可以在全速运行时产生500瓦或更多的热量。数据中心有成千上万的CPU或GPU,这意味着它们散发出惊人的热量。
保持这些芯片的清凉也需要消耗能量。电源利用效率是衡量数据中心效率的标准(PUE),也就是说,数据中心的总功耗与用来完成有用工作的电量之间的比例。基于UptimeIT顾问公司 一个典型的数据中心PUE为1.58,Institute数据。这意味着该中心大约有三分之二的电力用于运行计算机,而三分之一用于运行数据中心本身,大部分电力被制冷系统消耗。
跨越净零碳排放界线的高性能计算
巧妙的设计可以大大降低这个数字。大多数现有的数据中心依赖于蒸发和冷却。液体冷却带来了更好的热传递,但这需要额外的工程努力。一些创业公司甚至将电路板完全浸入专门设计的液体浴缸中。Frontier的PUE已经降到了1.03,因为它使用了液体冷却。
之所以在北极圈周围部署LUMI,是因为它可以利用亚北极的清凉气体。PUE级别仅为1.02,同一设施内相邻的计算机采用这种免费冷却机制。这意味着98%的电能被转化为有用的数学应用。科斯基博士说:“这接近可能的极限。”
即使是最好的商业数据中心也无法实现这些数字。例如,谷歌数据中心的平均PUE值为1.1。Uptime数据中心标准组织和第三方认证机构 根据6月份Institute发布的最新数据,经过几年的稳步改进,自2018年以来,全球数据中心的效率一直没有提高。但是它的主要原因是经济学,而不是计算机科学。伴随着对计算的需求急剧增加,企业使旧的、低效的基础设施运行更长时间更有意义。
这些政府正在考虑美国、英国和欧盟等国家制定的碳减排目标,以迫使数据中心变得更加高效。一项新的德国法律规定,到2027年,数据中心的最低PUE将降至1.5,到2030年为1.3。“我们希望LUMI能证明高性能计算能跨越净零碳排放的边界,科斯基博士说。"那些想要获得相关经验的人,最好亲自去芬兰学习。
本文来自微信微信官方账号“腾讯科技”,作者:金鹿,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




