AI浪潮下,存储行业需高性能与绿色化“双行并进”

2025-11-20

当AI应用以“周”为单位快速迭代进化,千亿、万亿参数的大模型成为竞争核心时,全球科技竞争的焦点,已从单纯的“算力竞赛”,悄然延伸至更为底层的存储领域。

如果把算力比作引擎,数据比作燃料,那么存储就是容纳燃料并保证其能高速、稳定输送至引擎的“智能油箱”与“高速输油管”。要是存储无法满足时代需求,即便算力再强大,也会像“巧妇难为无米之炊”,空转的引擎无法推动AI这艘巨轮前进。

AI重塑存储行业

AI技术的迅猛发展正在重塑存储需求的底层逻辑。《2025存力发展报告》显示,2025年全球数据总量将突破200ZB,其中AI训练数据年增速达67%,这种增长不仅体现在容量上,更引发了性能、架构、协同等全方位的变革。

首先是节点增多。曙光存储运营总监石静表示,当前大模型训练需要千卡集群甚至万卡集群,多计算节点同时存储时,存储面临的压力比通算时代大幅增加。

另一方面,AI时代企业数据集规模不断扩大,数据来源和种类更加丰富多样。“如今企业构建存储体系,规模动辄几十PB甚至上百PB。而且大模型时代后,传统的‘冷数据’变成了‘温数据’甚至‘热数据’,这对存储架构提出了新要求。”石静强调。

此外,AI时代对高性能存储的需求愈发强烈。大模型训练对存储带宽的需求呈指数级增长,当前AI训练所用带宽需求已进入“TB级纪元”。益企研究院《AI时代的存储基石》白皮书指出,2025年AI训练集群的平均存储带宽需求较2023年提升300%,传统HDD存储150MB/s的带宽已成为明显瓶颈。

对带宽的要求不仅在模型训练阶段,石静称,推理过程中企业也需要具备千万级别IOPS低时延的带宽来支撑高并发推理场景,“比如提升训练和推理效率时,存储要能跟上GPU速度,避免GPU等待数据IO。”而这在以往通算时代并非多数企业对存储的需求。

在AI重塑存储行业过程中,随着需求的爆发式增长,存储行业面临着前所未有的挑战。

一是架构瓶颈。传统存储与计算分离的架构使数据搬运成本激增,中国移动呼市数据中心早期采用集中式存储系统,支撑“九天大模型”训练时,GPU利用率仅40%。北京大学孙广宇教授指出,数据在内存与存储间搬运的能耗占系统总能耗的50%以上,这种“数据搬运困境”阻碍了AI效率提升。即便采用RDMA网络加速技术,传统架构仍难以突破带宽与延迟的物理极限。

二是成本压力。性能与投入失衡,全闪存储是满足AI性能需求的关键,但成本是规模化应用的阻碍。2025年QLCSSD单位容量成本虽较2023年下降40%,但仍比HDD高出2.3倍。

三是管理难题。AI时代数据呈现“4V”特征,即体量巨大、种类多样、价值密集、实时性强,给存储管理带来严峻挑战。

高性能、绿色化,存储行业的未来之路

面对AI需求的倒逼和可持续发展的要求,存储行业正形成“高性能突破”与“绿色化转型”双轮驱动的发展格局。

在高性能方面,高性能存储技术的发展正从单点优化转向体系性突破,涵盖介质、架构、协议等全链条创新。

介质上,全闪成为必然选择。闪存技术成熟使全闪存储从高端场景走向普及,《2025存力发展报告》显示,全国外置闪存占比超28%,金融、制造、互联网行业渗透率超45%;架构上,分布式架构主导规模化部署。集中式存储的扩展瓶颈在AI时代愈发明显,分布式存储凭借弹性扩展能力成为主流;协议层面,协议与硬件协同加速。NVMe - oF与RDMA技术结合,打破了存储与计算间的通信壁垒。如中国移动呼市数据中心采用曙光存储的“NVMe - oF+RDMA”组合方案,使存储网络带宽提升2倍,延迟降低3倍。

中国移动呼市数据中心的实践表明,千亿参数模型单次训练需读取超10PB样本数据,持续带宽需求达TB级。曙光存储为该中心配置总量逾60PB的存储资源(包括全闪、混产品),通过高密与数据节能技术,在400G网络下实现单节点190GB/s带宽,同时降低了整体存储建设成本,提升了性价比。

从长远看,存储行业仅有高性能还不够。作为高载能的数据中心,近年来一直致力于推动全生命周期的碳中和,在“双碳”目标和能源成本压力下,绿色存储从可选变为必选,形成了“技术节能 + 结构优化 + 政策引导”的发展路径。

硬件方面,中国移动呼市数据中心规模化应用液冷与间接蒸发技术,使智算中心PUE降至1.15。软件方面,智能调度算法成效显著,曙光存储的动态电压调节技术根据负载调整能耗,《绿色存储技术研究》报告显示,采用智能节能技术的存储系统,能效比可提升45%以上。

结构优化方面,绿电替代是数据中心绿色转型的核心举措。中国移动呼和浩特数据中心总经理王科峰介绍,2025年该中心绿电占比将达100%,较2024年的69%实现大幅提升。《2025存力发展报告》显示,西部数据中心绿电占比平均达58%,比东部高23个百分点,成为绿色存储的主战场。

政策方面,国家政策引导加速绿色存储落地,“东数西算”工程要求枢纽节点数据中心PUE低于1.25,推动存储系统向低能耗方向发展。行业标准也不断完善,IEEE提出的存储级能效比(SER)指标,通过量化每GB数据的年能耗,为绿色存储提供了评价依据。

除了高性能与绿色化需求,在各行业降本增效的当下,成本也是多数IDC用户考虑的重要因素。为追求“性价比”,中国移动呼市数据中心采用“全闪 + 混闪”配置,这是平衡性能与成本的折中方案,已成为国内智算中心的主流选择。爱集微咨询数据显示,AI存储的单位TB建设成本是传统存储的3.7倍,某互联网巨头2025年存储投入同比增长52%,仍难以完全匹配算力扩张速度。

管理层面,以中国移动呼市数据中心为例,其支撑的40余个行业大模型中,有结构化的政务数据和非结构化的医疗影像,传统存储管理系统难以精准实现冷热数据分层。对此,曙光存储推出StorInsight智能分析工具,通过实时采集IO特征,自动将热数据迁移至全闪层,使存储资源利用率提升35%,但这种智能化管理能力在行业内的普及率不足20%。

通过优化存储架构和智能化管理系统,在保证高性能的前提下降低成本,这击中了多数用户的痛点。

存算融合是趋势

除了满足高性能存储与绿色化需求,未来的数据中心,尤其是像中国移动呼和浩特这样的国家枢纽节点,将不再只是“算力中心”,而是“存力与算力融合的中心”。

存算融合过程中,存算一体的架构瓶颈是最大挑战。北京大学孙广宇教授指出,未来将形成“层次化的异构存算一体架构”,针对AI训练、推理等不同场景采用差异化融合方案。

为解决“内存墙”问题,存算一体技术将计算单元与存储单元深度融合,曙光存储正在研发的存算合封解决方案,通过先进封装技术拉近数据与计算的距离,预计能效提升300倍。

同时,在“东数西算”政策推动下,构建跨域协同存力网络至关重要,存储资源正形成跨区域协同格局。中国移动依托“4 + N + 31 + X”体系,以呼市数据中心为核心节点,通过400G算力专网实现存储资源的全国调度。曙光存储正在构建跨区域数据授权与安全机制,解决数据流动中的信任问题。《2025存力发展报告》显示,东部与西部存力协同调度可使整体存储成本降低22%,算力利用率提升18%。

未来,随着存算一体、AI原生等技术的成熟,存力将成为数字经济的核心生产力,为大模型创新、产业智能化转型提供坚实支撑。(文|Leo张ToB杂谈,作者|张申宇,编辑丨盖虹达)

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com