昆仑芯超节点惊艳亮相,单卡性能飙升 95%
电子发烧友网综合报道,11 月 13 日,2025 百度世界大会盛大举办,在同期开展的“百度世界展区”内,百度昆仑芯超节点首次公开亮相。与此同时,百度公布了天池超节点的后续规划:天池 256 超节点预计于 2026 上半年上市;天池 512 超节点将于 2026 下半年登场,它最高支持 512 卡互联,卡间互联总带宽提升 1 倍,单节点就能完成万亿参数模型训练。

早在今年 4 月首次亮相后,昆仑芯超节点就已在百度百舸 5.0 中全面投入使用,并接入百度智能云公有云服务。百度表示,借助该节点,目前业界最大规模的 1 万亿参数开源模型能在几分钟内,通过单一云实例完成运行。
昆仑芯超节点通过将多张昆仑芯 AI 加速卡整合为统一的超节点架构,在 DeepSeekV3/R1PD 分离推理架构的优化下,实现了单卡性能提升 95%,单实例推理性能大幅提升达 8 倍。
在 2025 年 8 月 28 日的百度云智大会上,百度智能云宣布其 AI 计算基础设施全面升级,正式发布百舸 AI 计算平台 5.0 版本。此次升级在网络、算力、推理系统及训推一体系统四个方面实现了重大突破,旨在打破 AI 计算效率瓶颈。
其中,昆仑芯超节点的正式上线是算力升级的关键一步。
百舸 5.0 在网络层面进一步降低了通信延迟,提升了数据传输效率,从而加快了大模型的训练与推理进程。在算力层面,昆仑芯超节点的接入为平台提供了强大的算力支撑。推理系统通过“解耦”“自适应”和“智能调度”三大策略,有效提高了吞吐量并降低了延迟。训推一体方面,平台发布的百舸强化学习框架,进一步提高了算力利用率。
百度依托昆仑芯 P800 及昆仑芯超节点,为企业打造了坚实可靠的算力基础。在大规模训练场景中,昆仑芯 P800 已完成超大规模集群实践验证,在国内率先实现自研 32,000 卡集群的规模化部署,有效训练效率超过 98%,助力企业以更低成本、更短周期训练出性能更优、经济性更好的模型。
在推理加速方面,P800 通过架构创新,实现单卡吞吐能力提升 4 倍,并将百万 token 推理成本降至几元级别,显著提高了高并发场景下的推理性能与经济效益。在生态易用性上,P800 广泛支持国内外主流大模型、开发框架与算子库,极大降低了迁移适配成本,提高了开发部署效率。
在 2025 百度世界大会上,百度集团执行副总裁、百度智能云事业群总裁沈抖透露,百度将推出全新一代昆仑芯 M100 及昆仑芯 M300。其中,M100 针对大规模推理场景进行了优化,充分发挥昆仑芯自研架构的优势,大幅提升 MOE 模型的推理性能,该芯片预计在 2026 年初上市。昆仑芯 M300 会在 2027 年年初上线,该芯片主要针对超大规模的、多模态大模型的训练和推理进行了深入优化,性能更为强大。
百度还公布了昆仑芯的未来五年路线图:百度天池千卡级超节点 2028 年上市;昆仑芯 N 系列 2029 年上市;百度百舸百万卡昆仑芯单集群 2030 年点亮。
更多热点文章阅读
点击关注 星标我们
将我们设为星标,不错过每一次更新!

喜欢就奖励一个“在看”吧!
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




