数据中心上山下海,能不能背得动AI能耗的锅?
能源焦虑似乎是一个永恒的话题。从蒸汽机到内燃机,从煤炭到石油,世界的发展总是围绕能源旋转。在AI时代,这一点没有改变。
OpenAI CEO Sam Altman在很多场合提到,未来的人工智能需要能源突破,因为AI消耗的电力会远远超出大家的预期。马斯克也推测,未来两年将从“缺硅”变成“缺电”。
数据显示,ChatGPT每天需要响应约2亿个请求,这个过程将消耗超过50万度的电力。预计到2027年,整个人工智能产业每年将消耗85-134太瓦时(1太瓦时=10亿千瓦时)的电力,约等于2023年北京市全年总耗电量(135.78太瓦时)。
巨大的能源消耗主要产生于两个方面,一是驱动AI服务器计算和存储消耗的能源,二是减少AI服务器温度消耗的能源,其中前者占60%,后者占40%。
但前者虽然占比较高,但即使AI芯片的能效一直在提高,也无法改变整体功耗持续上升的趋势,因为AI的发展对算率的需求越来越大。因此,如何降低服务器冷却时消耗的能源已经成为降低AI运营成本和能源消耗的关键。
所以,大到Google、像微软这样的科技巨头,小到服务器R&D供应商,SpaceX这样的尖端前沿也在煞费苦心。
高级服务器,从风冷到液冷
虽然2023年才刮起大模型的风,但是服务器冷却并非一个新的课题。
一九四五年,世界上第一台通用电脑ENIAC诞生。为解决ENIAC用电量大、热量高的问题,当时的工程师们用风扇来降低ENIAC的温度,这几乎是最早的服务器行业制冷。
但是风扇制冷的效果毕竟是有限的,而且当时的电脑又大又耗电。举例来说,ENIAC的重量约为30吨,占地170平方米,耗电150~174KW。
面对如此巨大的怪物,仅仅依靠风扇制冷是有点不可能的。因此,到1951年,当美国雷明顿兰德推出第一台商用计算机UNIVAC时。 一时间,已经用上了空调制冷。
空调器最早发明于1902年,最初是为了保持印刷厂的恒温,然后陆续进入家庭,大约在1920年就被广泛应用于美国。所以在1951年,UNIVAC 当我出来的时候,空调系统已经异常完善了。当时,雷明顿兰德专门为UNIVACC设计 一是设计了一套中央空调制冷系统。
图片:1951年美国人口普查局UNIVACC维基百科 I
从那以后,空调制冷逐渐成为大型计算机和服务器机房最重要的制冷方式,并持续了近百年,直到液冷技术登上舞台。
和空调制冷一样,液冷技术最早应用于机械加工、配电变压器或航天工程等领域,而不是服务器场景。它在服务器应用领域只是近20年的事情。
这是因为直到1994年,全球互联网浪潮才首次爆发。从那以后,互联网公司开始大规模建设和使用数据中心,以提供高效的服务,大规模存储数据。
因此,由于大量计算需求导致的芯片功耗增加、服务器密度增加等因素,传统的空调制冷设备显得有些力不从心,开始限制芯片特性的提升。
Simon副总裁,苹果,惠普和戴尔供应商Liteon Ong说:“我们发现选择风冷方式的芯片只能达到其性能的60%,会有一定的过热问题,而液体冷却解决方案可以继续最大限度地提高计算性能。”
三月一日,黄仁勋在斯坦福大学举行的2024年SIEPR经济峰会上说,英伟达的下一代DGX AI服务器将采用液冷技术。
据艾邦储能网统计,单个DGX H100系统消耗的功率约为10kW,液体冷却可以提高20-40%的整体能效,100,000DGX系统可以节省20-40兆瓦的功耗,按0.10美元/千瓦计算,相当于每年节省2000-4000万美元的能源成本。
图:Nvidia,DGXAI服务器
与风冷相比,液冷不仅具有更高的散热效率和更低的能耗水平,还可以减少服务器的占地面积,即同样大小的机房可以放下更多的服务器。各种优势使得液冷技术逐渐取代风冷,成为数据中心的主要冷却方式。
在全球范围内,谷歌应该是最早探索使用液冷技术的因特网技术企业之一。
谷歌前CEO埃里克·施密特于2006年在搜索引擎大会上(SES San Jose 2006年首次提出“云计算”(Cloud Computing)与此同时,谷歌的数据中心也在快速增长。
2009年,华尔街日报报道谷歌为了提高数据中心能源利用效率,开始探索液冷技术在数据中心的应用。当时谷歌表示,液冷技术可以将数据中心的能耗降低40%。
同年,惠普推出了一款名为ProLiant的产品。 DL380 Gen8服务器采用全新的液体冷却技术,可以降低40%的功耗。两年后,IBM还推出了一款名为System的液体冷却技术服务器。 x3550 M5,能降低45%的功耗。
此后,微软,亚马逊,Facebook(现在Meta)也开始陆续跟进,并在2019-2022年左右,将所有数据中心的制冷方式转化为液冷方式。
当然,液体冷却技术也分为很多类别。根据冷冻液进入电子产品的方式不同,大致可以分为芯片级液体冷却、浸没式液体冷却、喷淋式液体冷却、冷板式液体冷却等。
例如芯片级液冷,为了吸收芯片产生的热量,将冷冻液直接输送到芯片顶部。这是一种完全降温的形式,但是结构复杂,成本高。浸没式液冷就是将整个电子产品浸泡在冷冻液中,这种形式冷却均匀,但是体积庞大,维护不方便。
喷淋式液冷就是在电子产品上喷洒冷冻液,虽然冷却效果较差,但胜于结构紧凑,成本较低。冷板式液冷它是由铜管、铝板等高导热材料制成的冷板来降温。它的工作原理有些类似于北方散热器,但区别只是温度升高和温度降低。
目前,冷板液冷是市场上使用最广泛的一种。根据Gartner的数据,冷板液冷技术在2023年全球数据中心液冷市场的市场份额约为60%。
然而,近两年来,喷淋液冷和浸没液冷的市场份额也有所增加。根据Gartner的数据,喷淋液冷技术和浸没液冷技术的市场份额将在2024年全球数据中心液冷市场分别达到约25%和15%。
在所有液冷技术中,喷淋液冷市场份额的增加,根本原因是其结构紧凑,而且更容易安装和维护,成本最低。
联想在2023年发布的《喷淋液冷服务器白皮书》中指出,“喷淋液冷技术具有良好的扩展性和灵活性,可以满足不同类型数据中心的需求。”这符合越来越多企业在数字化转型过程中建设私有云和自己的小数据中心的需求。
而且喷淋式液冷由于成本选择得当,浸没式液冷市场份额增长的主要原因是效率。
随着人工智能,特别是大型模型的发展,市场对数据中心的能源效率和服务器性能提出了更高的要求,近两年来,由于技术的成熟,沉浸式液体冷却的成本逐渐降低,进入了更多企业可接受的范围。
总的来说,液体冷却技术已成为目前市场上最重要的服务器冷却方式。
数据中心上山下海
虽然液体冷却技术在降低数据中心的能耗方面发挥了巨大的作用,但仅仅依靠传统的液体冷却方法远远不够高速增长的计算率和巨大的能耗。
另外,液冷技术也存在一些问题,比如用水量巨大。
谷歌在其官方网站上宣布,2021年,谷歌数据中心平均每天消耗约45万加仑水。这相当于给17英亩的草地浇水一次,或者种植160条牛仔裤的棉花。
同年,谷歌全球数据中心机队消耗了约43亿加仑水,相当于每年在美国西南部浇水和维护29个高尔夫球场所所需的水量。

图:谷歌
此外,随着全球ESG理念日益成为判断公司的重要标准,减碳甚至无碳成为数据中心运行的重要标准。
为了解决这个问题,谷歌很早就开始敞开心扉。2009年,谷歌从芬兰的一家造纸公司那里购买了一家造纸厂,并开始将其转化为数据中心。
选择芬兰的原因之一是纬度高,自然环境温度低;另一个原因是这家纸厂位于芬兰南部的海岸,谷歌准备引导海水降低数据中心的温度。
目前,该项目的第一个项目已于2011年9月竣工,谷歌最初投资2亿欧元,但到目前为止,总投资已超过20亿欧元。谷歌的目标是让所有数据中心和公园在2030年前24小时使用无碳能源运营业务。
Facebook也选择了借助自然环境降温。2011年,它在瑞典北部宣布了一个名为吕勒奥的城市建设数据中心。
之所以选择这个地方,一是因为它是一个电费便宜的工业城市。二是因为纬度高。吕勒奥距离北极圈只有110公里左右,每年10月开始下雪,冬季平均气温在零下6左右。°C至零下13.6°C,即使在夏天,平均气温也只有12。°C - 20°C。
该项目于2011年开始建设,大型风扇将外部冷空气引入机房,为数千台服务器提供物理退烧。根据扎克伯格的说法,吕勒奥数据中心的工作效率比传统数据中心高10%,能耗低40%。
不像谷歌和Facebook在地面上想办法,艺术家胆大包天的微软直接选择把数据中心扔进海里。
微软认为,超过一半的世界人口居住在距离海岸约120公里的地方。数据中心放置在沿海地区周围的水域,数据可以短距离传输到沿海社区。
2015年,微软正式启动了一个名为Natick的项目;2018年,该项目团队将12个配备864台服务器的服务器机架通过压力容器沉入苏格兰海岸附近的海床。两年后,他们捞出了这个巨大的圆柱体,验证了这个项目的成功。
图:微软
现在,这种技术在国内也同样得到了应用。
2022年12月,海南海底数据中心成功将近300台服务器的“海底数据舱”放入海底,并开始向外输出数据,成为世界上第一个商业海底数据中心。
该项目总经理蒲定在接受《环球时报》采访时表示,“以1万个陆地机柜为例,同等计算能力的海底数据中心每年可节约用电量1.75亿千瓦时,节约建设用地面积9.84万平方米,节约淡水15万吨。”
有些公司把服务器放在海里,自然也有公司把服务器放在山里。
比如2017年,富士康数据中心落户贵安新区洞穴。设计师打开山底两端形成隧道,使空气流通,使山内温度低于外界自然条件,成为机房服务器的自然条件 “空调房”。
位于北纬26度左右的贵州,四季温度均衡,加上自然喀斯特地貌,使山体成为服务器的天然器皿。
2021年,中国提出了“东数西算”战略,贵州成为中国西部最重要的数据中心之一。许多头部企业,如苹果和华为,都在贵州的山区建立了自己的数据中心。
结语
如果说谷歌、Meta等知名大公司之间的AI竞争是人与人之间的技术竞争,那么AI本质上就是重新解构人与生态资源之间的关系,以提高能源效率。
能量是守恒的。人类不仅要获得更先进的生产力,尝试无限扩大其能力上限,还要思考可能付出的代价是否超出了自己的极限,从而找到最佳解决方案,更科学地配置资源。
Open AI点燃了新一代AI竞争,将AI的“吃电”量推向了一个新的高峰,原本“看不见”的能源对决,也摆在了光明的一面。
虽然每个公司都在寻找“上山下海”的解决方案,但也可能面临一些争议和技术挑战。比如海底放置服务器可能会影响海洋生态,而偏远地区的数据中心可能会涉及复杂的物流和维护。
它就像打开了“俄罗斯套娃”,每次解决一个问题,都会发现背后总有新的问题。
一切都是有代价的。当资源稀缺时,也是考验人类智慧的时候。也许新的能源解决方案就在前方。只有当人类打开“急切”的闸阀时,他们才能更近距离地获得新的解决方案。
参考资料
https://blog.google/outreach-initiatives/sustainability/our-commitment-to-climate-conscious-data-center-cooling/
本文来自微信微信官方账号“产业象限”(ID:codesideAI),作家:山茶,编辑:钱江,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




