昆仑芯超节点惊艳亮相，单卡性能飙升 95%

2025-11-17

电子发烧友网综合报道，11 月 13 日，2025 百度世界大会盛大举办，在同期开展的“百度世界展区”内，百度昆仑芯超节点首次公开亮相。与此同时，百度公布了天池超节点的后续规划：天池 256 超节点预计于 2026 上半年上市；天池 512 超节点将于 2026 下半年登场，它最高支持 512 卡互联，卡间互联总带宽提升 1 倍，单节点就能完成万亿参数模型训练。

早在今年 4 月首次亮相后，昆仑芯超节点就已在百度百舸 5.0 中全面投入使用，并接入百度智能云公有云服务。百度表示，借助该节点，目前业界最大规模的 1 万亿参数开源模型能在几分钟内，通过单一云实例完成运行。

昆仑芯超节点通过将多张昆仑芯 AI 加速卡整合为统一的超节点架构，在 DeepSeekV3/R1PD 分离推理架构的优化下，实现了单卡性能提升 95%，单实例推理性能大幅提升达 8 倍。

在 2025 年 8 月 28 日的百度云智大会上，百度智能云宣布其 AI 计算基础设施全面升级，正式发布百舸 AI 计算平台 5.0 版本。此次升级在网络、算力、推理系统及训推一体系统四个方面实现了重大突破，旨在打破 AI 计算效率瓶颈。

其中，昆仑芯超节点的正式上线是算力升级的关键一步。

百舸 5.0 在网络层面进一步降低了通信延迟，提升了数据传输效率，从而加快了大模型的训练与推理进程。在算力层面，昆仑芯超节点的接入为平台提供了强大的算力支撑。推理系统通过“解耦”“自适应”和“智能调度”三大策略，有效提高了吞吐量并降低了延迟。训推一体方面，平台发布的百舸强化学习框架，进一步提高了算力利用率。

百度依托昆仑芯 P800 及昆仑芯超节点，为企业打造了坚实可靠的算力基础。在大规模训练场景中，昆仑芯 P800 已完成超大规模集群实践验证，在国内率先实现自研 32,000 卡集群的规模化部署，有效训练效率超过 98%，助力企业以更低成本、更短周期训练出性能更优、经济性更好的模型。

在推理加速方面，P800 通过架构创新，实现单卡吞吐能力提升 4 倍，并将百万 token 推理成本降至几元级别，显著提高了高并发场景下的推理性能与经济效益。在生态易用性上，P800 广泛支持国内外主流大模型、开发框架与算子库，极大降低了迁移适配成本，提高了开发部署效率。

在 2025 百度世界大会上，百度集团执行副总裁、百度智能云事业群总裁沈抖透露，百度将推出全新一代昆仑芯 M100 及昆仑芯 M300。其中，M100 针对大规模推理场景进行了优化，充分发挥昆仑芯自研架构的优势，大幅提升 MOE 模型的推理性能，该芯片预计在 2026 年初上市。昆仑芯 M300 会在 2027 年年初上线，该芯片主要针对超大规模的、多模态大模型的训练和推理进行了深入优化，性能更为强大。

百度还公布了昆仑芯的未来五年路线图：百度天池千卡级超节点 2028 年上市；昆仑芯 N 系列 2029 年上市；百度百舸百万卡昆仑芯单集群 2030 年点亮。

更多热点文章阅读

点击关注星标我们

将我们设为星标，不错过每一次更新！

喜欢就奖励一个“在看”吧！

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

Rokid AI眼镜携创新功能进军日常穿戴市场

浙江移动宣布：4G/5G全省覆盖，2G网络将逐步退网

巧妙的座位调整，比奖金更能提升工作效率

松江中小学劳动小能手齐聚，劳动教育成果精彩展示

青山关：时光与长城的轻声对话