华为引领,三强入局!十万卡智算集群落地,国产算力芯片崛起

2025-10-16

电子发烧友网报道(文 / 章鹰)2025年10月10日至12日,中国移动全球合作伙伴大会在广州保利世博馆盛大举行。中国移动宣布,会持续加大对人工智能领域的投入,总体投入翻倍,建成国内规模最大、技术领先的智算基础设施,探索十万卡智算集群建设,全国产智能算力规模突破100 EFLOPS,成为新质生产力发展的“驱动燃料”。中移动在现场展示了“国芯国连”AI算力集群,移动云磐石智算交换机、超级点AI算力集群也精彩亮相。


左图:移动云磐石智算交换机 右图:超节点AI算力集群


在大会现场,记者看到华为、中兴、中科海光、超聚变等厂商展示超节点AI集群服务器。在迈向AI+时代的进程中,AI算力的需求发生了哪些变化?头部通信运营商、互联网巨头如何看待这些变化?国产算力芯片又有哪些最新进展?记者结合实地采访和前沿产品为大家分析。


中移动与三大互联网巨头布局AI智算,大型自主算力供给亟需国产芯片突破


鹏城实验室高效能云计算所所长余跃表示,2025年以来,国内外算力发展模式路径不同。国外十万卡集群建设火热,像“星际之门”这样的大规模集群快速建设,全球算力资源加速向少数国家、科技巨头集中,发展态势极不均衡。中国算力总量居世界第二,但单体算力与国外大型算力有差距,亟需通过有组织的方式推进分散算力的互联协同。


余跃分析,从通信层、计算层、网络层和应用层形成全栈式的关键挑战,算力网面临四大技术难题:一是大型自主算力供给与应用,如从千卡到万卡,再到十万卡,以华为384超节点Atlas 900 A3 SuperProD为代表的十万卡集群,能否开展大模型方向的智能化服务;二是芯光纤通信与网络传输,即算力从局域网到广域,芯片互联集群走向IDC之间的互联,大型传输问题如何解决;三是协同调度和算力协同标准,不同算力中心使用不同芯片,存在异构性,计算层的互联适配困难;四是安全可信的计算环境。


考虑到美国禁止高端算力芯片向中国供应,大型自主算力供给成为当前的卡点。美国人工智能芯片龙头企业英伟达CEO黄仁勋预测,今年中国AI市场约有500亿美元的机会,且每年增长50%。


电子发烧友从多位供应链人士处了解到,保守计算,2024年中国市场英伟达H20系列芯片出货量约60万 - 80万枚,某国产主流AI芯片出货量约30万 - 40万枚。2024年中国对AI芯片的需求约100万枚。而2025年,中国移动、字节跳动、腾讯、阿里都在加大算力设施投入,意味着需要采购更多AI芯片。


据悉,2025年中国移动在智算领域投入373亿元,AI直接投资超百亿元,智算总规模达61.3 EFLOPS,并启动50亿元级AI推理设备集采,全面构建“云 - 边 - 端”一体化智算体系。此外,公开消息显示,字节跳动2025年AI资本投入1600亿元人民币,AI芯片采购采用海外和国产芯片双渠道模式。


8月13日,腾讯总裁刘炽平在Q2业绩会表示,元宝、AI搜索等多个应用场景的用户数提升带来推理负载占比提升,公司考虑推理芯片供应渠道具备多种选择。鉴于海外高端芯片贸易政策不确定性大,腾讯有望依托华为、寒武纪、海光等国产厂商的推理芯片满足相关算力需求。


8月21日,DeepSeek更新模型版本至DeepSeek - V3.1,新版本模型相比前代能更快给出答案,具备更强的Agent能力,新版本模型使用了UE8M0 FP8 Scale参数精度,DeepSeek表示新精度格式针对即将发布的下一代国产芯片设计。


9月24日,在2025年阿里云栖大会上,阿里巴巴集团CEO兼阿里云智能集团董事长吴泳铭宣布公司最激进的AI投资计划,未来三年(2025 – 2027年)将投入超3800亿元人民币,用于云计算与AI硬件基础设施建设。资金用于建设AI算力中心和采购AI芯片、服务器集群,以及研发通义千问大模型等AI基础模型。


支持UE8MO FP8精度,国产算力芯片新品迭出


2025年,在出口管制与国产替代双重刺激下,国产AI算力芯片进入“新品爆发期”。AI芯片呈现高效能、高精度、软硬协同三大发展趋势,其中高精度计算能力的突破尤为关键。


10月10日,在2025中国移动伙伴大会2层华为展区前,昇腾384超节点Atlas 900 A3 SuperProD备受关注。该产品通过总线技术实现384个NPU之间的大带宽低延时互联,算力规模300 PFlops,单卡推理量从每秒600Token提升到每秒2300Token,提升4倍,打破跨机通信带宽性能瓶颈,实现从服务器级到矩阵级的资源供给模式转变。


图:华为超节点产品Atlas 900SuperPoD 电子发烧友拍摄


早在9月18日华为全连接大会2025上,华为副董事长、轮值董事长徐直军宣布:“华为发布了最新超节点产品Atlas 950SuperPoD和Atlas 960 SuperPoD超节点,分别支持8192及15488张昇腾卡,在卡规模、总算力、内存容量、互联带宽等关键指标上全面领先,未来多年将是全球最强算力的超节点。Atlas 950SuperPoD预计2025年四季度上市,Atlas 960 SuperPoD预计2027年四季度上市。”


徐直军介绍,未来三年华为规划多款昇腾算力芯片,包括昇腾950PR、950DT、以及昇腾960和970。其中昇腾950PR将在2026年第一季度推出,该芯片采用华为自研HBM。


据悉,昇腾950PR芯片架构新增支持低精度数据格式,重点提升向量算力,互联宽带提升2.5倍,支持华为自研HBM高带宽内存,有HiBL 1.0和HiZQ 2.0两个版本。HiBL 1.0容量128GB,带宽1.6TB/s;HiZQ 2.0容量144GB,带宽4TB/s。


此外,昇腾950DT采用HiZQ 2.0内存,可提升推理Decode(解码)性能、训练性能、内存容量和带宽。


寒武纪在7月的上海人工智能大会展示了最新的云端智能训练芯片思元590,采用MLUarch05全新架构,实测训练性能较在售旗舰产品大幅提升,提供更大内存容量和更高内存带宽,其IO和片间互联接口也大幅升级,让AI运算速度更快,处理复杂任务更轻松。


海光信息在AI大算力芯片(DCU)领域形成“深算一号、二号、三号、四号”的梯次迭代,并率先商业落地,是国产GPU阵营里唯一能稳定盈利、批量供货的企业。记者在中移动合作伙伴大会现场看到,中兴海光服务器广泛部署在中国移动关键业务场景,HYGON DCU深算二号K100 - AI是训推一体机,覆盖边缘一体机到大型数据中心的集群部署。


图:中兴海光合作推出训推一体机 电子发烧友拍摄


海光信息的新一代AI算力芯片表现出色,采用7纳米制程技术,配备16核处理器,运算速度比前一代提升50%,功耗大幅降低。海光信息官方微信显示,9月29日,DeepSeek - V3.2 - Exp发布并开源,引入稀疏Attention架构,海光DCU第一时间实现无缝适配 + 深度调优,高效支持Tilelang算子,确保大模型算力“零等待”部署。


百度今年推出最新一代昆仑芯P800系列产品,采用昆仑芯100%自研的XPU - P架构,凭借卓越计算性能、完善软件生态和领先的大规模部署能力,该芯片已在国产AI芯片行业率先实现3万卡集群的成功部署。


更多热点文章阅读


点击关注 星标我们


将我们设为星标,不错过每一次更新!


喜欢就奖励一个“在看”吧!


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com