AI观察|计算饥渴和泡沫

04-30 07:08

数据中心是信息基础设施中的计算率基础设施。一方面,DeepSeek煽动了AI计算能力的需求,提高了数据中心的上架率;另一方面,微软、亚马逊等科技巨头放缓了一些人工智能数据中心项目。全球AI大赛是否过剩或不足以撕开计算率的角落?


近日,多位业内人士在接受《ThePaper》采访时表示,DeepSeek出现后,推理计算能力需求增加,计算效率提高,整体计算能力需求增加。但与此同时,各地数据中心利用率不平衡,部分计算率因设备老化、供需错配、垂直生态模式建设不到位而闲置。


随着人工智能的快速发展,业内人士认为计算能力的需求是无止境的,长期趋势仍然供不应求。是否建立数据中心的关键在于能否满足用户的需求。


算率新浪潮


分布式计算包括超级计算、智能计算和基于云计算的通用计算。在数据智能时代,数据计算需求促进了云计算的兴起,云计算面向社会经济的各行各业,实现了智能计算。随着人工智能的跨越式发展,中高性能的智能计算已经成为一种热门的计算资源。


国际化数据公司(IDC)根据《中国人工智能计算能力发展分析报告》,2024年,中国智能计算率达到725.3百亿/秒。(EFLOPS),比去年同期增长74.1%,比去年同期增长3倍以上;市场规模为190亿美元,比去年同期增长86.9%。


自今年以来,DeepSeek的兴起激活了推理计算能力的需要。他说:“在因特网时代,数据中心主要提供数据交换功能的服务器。现在数据中心已经转变为智能计算中心,在原有互联网时代的服务基础上提供智能计算率,以满足更多人工智能的计算需求。“上海超级计算中心主任李根国表示,近年来,智能计算中心的建设发展迅速,大模型的出现,尤其是DeepSeek,让之前闲置的数据中心活了下来。随着社会对AI接受度的提高,各地都在部署AI,总体而言,计算率供不应求。”


2023年至2024年,国内“百模决斗”主要是培训需求,“当培训需求收敛时,基本模型玩家越来越少,单个客户数量越来越大,支持这样的客户,需要具备万卡以上的能力,但大多数厂家没有,所以千卡、百卡集群都是闲置的。”某智算行业的专家向澎湃科技介绍。早些年,各地投建智算,的确是一拥而上,这也是导致算率闲置的原因。但是DeepSeek出现之后,智算利用率反而有所提高。首先,对训练计算率的需求有所下降,这使得行业模型训练的成本更低。第二,DeepSeek的开源极大地促进了场景应用和下游模型的改进,使得闲置的千卡和百卡集群也有了立足之地。目前,许多地方计算率供不应求。


他说:“我们以前在做超算,这两年突然发现智算出现了。在智算中,一个很典型的大需求就是大规模的训练,这实际上也是一种超算应用,所以智算的需求也带动了超算的需求。“AI云创始人、AI云事业部总经理赵鸿冰说,超算云和智算云算力服务商并行科技。高性能计算的超级计算主要服务于国家战略,为航天工程、国防、气候、石油、制造、生命科学等领域提供计算服务。


上述智算行业专家对当前计算能力需求的上升趋势进行了判断,“随着DeepSeek R2的推出和开源,供不应求的现象将持续一段时间。“他认为,过去数据中心的上架率存在需求失衡。根本原因是软件的迭代速度比硬件进化速度快,使得市场整体供需呈现波动趋势。但是从趋势来看,供需波动的轴线,也就是人工智能发展曲线的长期改善。


饥渴与过剩


“从长远来看,人工智能的方向没有错。长期趋势仍然供不应求,但短期内可能会出现不平衡和冗余。”智能计算行业的专家告诉澎湃科技。在他看来,智能计算率是智能经济发展的基础和瓶颈制约,需要提前布局,但提前布局很可能造成建设浪费。在工业发展过程中,很难避免这种先进的建设和浪费。


事实上,就算率而言,饥饿和过剩是同时存在的。


据沙利文统计,中国数据中心整体上架率从2019年的53%提高到2022年的58%,相当于过去几年闲置了40%以上的算率。


2024年,国家发改委联合有关部门发布的《数据中心绿色低碳发展专项整治计划》提出,到2025年底,全国数据中心布局更加合理,整体上架率不低于60%。引导智算中心规范集群发展,促进存量分散数据中心集约化高效转型。


从全国范围来看,各地数据中心的利用率处于不平衡状态。一些发达地区的数据中心利用率相对较高,甚至接近饱和,因为它们承担了大量的互联网业务和AI培训任务。在一些不发达地区,由于业务需求不足,数据中心利用率相对较低,存在一定的资源浪费。


计算需求在东部,能源在西部,导致东数西算。然而,计算率调度不同于电力调度。西部数据中心的上架率受到服务保障能力、数据传输成本、带宽和延迟的限制。


要使用西部服务器,东部地区必须先传输数据,计算完成后再传输到东部。当数据超过一定规模时,就会突出带宽和延迟。他说:“以前生命科学运算石油勘探计算要用超级计算机计算的时候,都是人带着数据飞来,这是最经济的方法。“李根国表示,跨域数据传输成本高,点对点专线成本一年可达数百万元,这意味着西部数据中心如果想服务东部需求,仍然存在各种需要跨越的问题。目前,区域服务似乎是最经济的。


李根国还提到,过去各地的数据中心建设存在同质化竞争,建设周期长。“最初的建设数据中心是将旧服务器排成一排,后来发现没有那么多需求,尤其是云计算发展后使用虚拟服务器。”在智能计算时代,技术迭代周期正在加速。如果跟不上转型,就会面临更大的使用效率和成本压力。


上述智算行业专家指出,即使当前计算能力需求急剧增加,通用计算率仍然存在过剩。他说:“过去一拥而至,建立传统数据中心,最终要靠自然消化,要么成为云厂商,要么成为云厂商的服务提供商。但是云的自然增长率只有个位,传统数据中心仍然无法出租。这是因为这样的数据中心“没有市场服务水平”,更深层次的原因是垂直生态模式建设不到位,云服务水平跟不上。


他指出,数据中心是基础设施,资源调度和应用服务依赖于软件服务系统。云厂商建立自己的数据中心,实现IaaS(基础设施即服务)、PaaS(平台即服务)一体化服务是提升用户体验的基础。“只建IaaS是AI服务器的加价配送模式。没有系统运维和软件服务能力,其利润必然薄弱,难以实现高质量发展。”


同时,数据中心是一种工业消耗品,旧设备耗电量大,计算率低,建设5年后将被淘汰。“如果有些数据中心是一般5000瓦以下的旧单机柜功率服务器,这样的中心只能在硬件层面进行改造。如果原来是一台机器,恐怕很难适应大规模高性能集群的结构。”另一位业内人士告诉《ThePaper》。


但中信建投证券认为,中国数据中心市场存在一定的供需和区域不平衡问题,但已明显缓解。与一般数据中心相比,智能计算中心支撑的GPU服务器功率密度增加,为传统云计算准备的机柜功率无法很好地满足GPU计算能力的布局需求。同时,随着GPU单卡功耗的不断增加,对机柜功率密度的要求也在不断增加,新建大功率机柜的增量需求也很多。旧机房消耗叠加功率新需求释放,有望开启新一轮周期。


新生计算服务中间商


应对激增的计算能力需求,除了构建更多的数据中心外,还需要不断提高数据中心的运营效率,计算率业务正在从单一资源提供向综合服务转变。由于各大计算能力中心缺乏运营服务能力,代理运营计算能力中心的计算能力服务中间商应运而生。


这些中间商提供运维、调度和改进服务,帮助计算中心提高资源利用率和服务水平。在AI模型培训需求激增的背景下,代理运营服务将成为连接供需双方的重要桥梁。


上海无问芯圆智能科技有限公司相关负责人想做AI模型计算率“非常放大器”,告诉澎湃科技,公司计算率业务逐渐从提供机柜租赁、端口服务等传统基础资源向计算率智能服务延伸。例如,一些服务提供商通过算法预测计算能力需求,提高异构资源调度效率,填补市场空白,满足AI培训等高级需求,开始提供智能调度、算法优化等增值服务。未来,为了更高效地调度计算率,我们还需要处理计算率资源的异构整合,实现不同品牌和型号计算资源的统一调度,同时根据大型培训任务的实时需求对计算率资源进行动态管理。要实现不同区域间算率资源的灵活配制和高效利用,就跨区域算率资源协同而言。未来,具有全栈服务能力的第三方服务提供商将成为行业的主导者。


在赵鸿冰看来,计算服务的价值形式包括IaaS、PaaS、SaaS,MaaS(模型即服务)出现在大模型流行之后。计算率服务中间商只有深化这些价值,才能发现深厚的情况和规模效应。“我们希望将已建成的中心纳入并行的计算能力网络,以满足客户的需求,使这些中心充分发挥生产力和社会效益。”


“超级计算支持传统科学的计算,智能计算支持数据科学的计算,支持大模型的预训练、后练习和推理。超级计算和智能计算都是由社会需求驱动的。”赵鸿冰说,计算能力的需求是无止境的,AI的落地肯定会带动计算能力的利用率,关键在于满足用户的需求。根据社会化需求,根据不同的业务类型,在不同的地区构建不同的资源和产品形式。比如西部绿色计算率资源可以用于离线实践业务,实时业务可以在东部运行,相应的电力成本会更高。实际上,利用率差距并不大,因为根据客户真实的业务特点情况来设计、建设和运营。”


对于上述智算行业的专家来说,DeepSeek使得中期优化和去泡沫的算率资源,但是真正满足用户需求的算率仍然不够。目前对推理计算能力的需求越来越大,模型应用的核心需求是推理计算能够更好地响应客户,降低成本,提高产出。与此同时,基础模型仍处于多模态、多模式扩张阶段,高性能计算率仍不够,软硬件一体化道路是未来唯一的选择,正如DeepSeek通过工程优化将硬件性能发挥到极致一样,软件能力将变得越来越重要。


无问芯穹表示,DeepSeek点爆推理需求,未来推理芯片将大幅增加,推理计算能力需求或预训练需求将超过100倍。预计练习和推理的算率比例将为8。:2发展至2:8。国产芯片将迎来繁荣,应抓住机遇,打造国内AI产业闭环,实现更加可控的自主计算发展。要对海外芯片进行极致的软硬件协同优化,以有限的算率追求国内模型能力,推动国内芯片厂商开放底层软件生态,依托国内外芯片构建“异构”AI系统,处理算率缺口。


他说:“我们对自然的探索,对生命的认识还远没有停止,科学研究对计算能力的需求是无止境的。更多的算率可以使模型扩展得更大,研究得更精细。“李根国说,计算能力的需求在增加,但计算形式没有发生实质性的变化。计算的基础仍然是以冯·诺依曼结构为主的存算分立集成电路。今后若实现存算一体化,将改变当前的计算模式,突破计算率难题,提供更高效的计算支持。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com