英伟达新GPU来袭，性能远超当前旗舰

2025-09-12

英伟达推出了Rubin CPX GPU，将推理阶段拆分进行，效率提升可达6.5倍，预计2026年出货。

通过发布Rubin CPX，英伟达把推理计算过程分成上下文与生成两个阶段，分别由两块GPU运算，效率最高能达到现有旗舰机架的6.5倍。

全球人工智能算力芯片龙头英伟达周二宣布，推出专门为长上下文工作负载设计的专用GPU Rubin CPX，旨在让当前AI推理运算的工作效率翻倍，尤其适用于编程、视频生成等需要超长上下文窗口的应用。

英伟达CEO黄仁勋表示，CPX是首款为需要一次性处理大量知识（数百万级别tokens）并进行人工智能推理的模型打造的芯片。

需要说明的是，Rubin是英伟达明年发售的下一代顶级算力芯片，所以基于Rubin的CPX预计要到2026年底出货。下一代英伟达旗舰AI服务器全称是NVIDIA Vera Rubin NVL144 CPX，它集成了36个Vera CPU、144块Rubin GPU和144块Rubin CPX GPU。

（NVIDIA Vera Rubin NVL144 CPX机架与托盘，来源：公司博客）

英伟达透露，搭载Rubin CPX的Rubin机架在处理大上下文窗口时，性能比当前旗舰机架GB300 NVL72最多高出6.5倍。

据悉，下一代旗舰机架将提供8exaFLOPs的NVFP4算力，比GB300 NVL72高出7.5倍。同时单个机架就能提供100TB的高速内存和1.7PB/s的内存带宽。

英伟达在Rubin GPU边上再配一块Rubin CPX GPU，是为了显著提升数据中心的算力效率，让用户购买英伟达芯片能赚更多钱。英伟达表示，部署价值1亿美元的新芯片，能为客户带来50亿美元的收入。

为何需要两个GPU？

作为行业首创，英伟达的新品在硬件层面拆分了人工智能推理的计算负载。

英伟达介绍，推理过程有两个截然不同的阶段：上下文阶段与生成阶段，这两个阶段对基础设施的要求本质上完全不同。

上下文阶段属于计算受限，需要高吞吐量的处理能力来摄取并分析大量输入数据，从而生成首个输出token。相反，生成阶段属于内存带宽受限，依赖高速的内存传输和高带宽互联（如NVLink），以维持逐个token的输出性能。

当前顶级的GPU是为内存和网络限制的生成阶段设计的，配备昂贵的HBM内存，但在解码阶段并不需要这些内存。因此，通过分离处理这两个阶段，并针对性地优化计算与内存资源，能显著提升算力的利用率。

据悉，Rubin CPX专门针对“数百万tokens”级别的长上下文性能进行优化，具备30petaFLOPs的NVFP4算力、128GB GDDR7内存。

英伟达估计，大约20%的AI应用会“坐等”首个token出现。例如解码10万行代码可能需要5 - 10分钟。多帧、多秒的视频，预处理和逐帧嵌入会迅速增加延迟，这也是当前视频大模型通常仅用于制作短片的原因。

英伟达计划以两种形式提供Rubin CPX，一种是与Vera Rubin装在同一个托盘上。对于已经下单NVL144的用户，英伟达也会单独出售一整个机架的CPX芯片，数量正好匹配Rubin机架。

本文来自微信公众号“科创板日报”，作者：史正丞，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

Labubu二手市场热度骤降，泡泡玛特补货引发黄牛抛售潮

马斯克透露Optimus V3新进展：设计敲定，2026量产且成本将大降

谢崇安：揭秘“有灵”的中国古代艺术

网购收到此物，务必小心！

全国首张3D打印药品生产许可证诞生，开启制药新时代

项目推荐

迪瓜租机

康老板 · 氧疗堂