声称英伟达停止开发双柜版本。 NVL36*2GB200AI 机柜

2024-10-03

IT 世家 10 月 2 昨天(10月10日) 月 1 日本)发布市场投资简报,报道称英伟达不再提供双柜版,无需客户定制要求。 GB200(2 个 NVL36),仅提供单柜版本 GB200 NVL72,而单柜版 NVL36 仍然保持原有的开发和出货计划。


IT 这个家庭附上了郭明邈的简报信息:


结论:


这个问题不会影响 AI 与 Nvidia 长期的正向趋势,但短期内可能会导致部分市场参与者对抗。 Nvidia 质疑供应链执行能力。


Nvidia 最近经常修改 AI 服务器产品蓝图,我想这就是 Nvidia 在资源有限的情况下,我们希望在供应链执行、竞争优势和客户需求之间取得更好的平衡(停止 NVL36*2 开发只是一个例子 ) 。那是好事,代表 Nvidia 更加务实地面对产品策划,但是在改变过程中,一些市场参与者可能会对供应链混乱感到困惑。


因当前 Blackwell 伺服器的 2025 年度商品出货组合能见度低 ( 几个月前市场普遍认为只会有市场。 NVL36、NVL72 与 NVL36*2 ) ,一些供应商,如组装、排热等。 2025 年度展望将受到很大影响。


2个 72GPU 比较版本:选择 NVL72 并取消 NVL36*2 的原因


发展资源有限。最初的计划是GB200 NVL36有三个案例(NVL36)、NVL72、同时开发NVL36*2。预估自 11 R&D版本在月中旬开始。 ( Development drop:DevDrop ) 便会收敛至 NVL72 与 NVL36*2 ( 因 NVL36「理论上」准备进入量产阶段 ) ,并在 2025 年 3 在月中旬之前完成两者的最终质量验证。 ( Quality assurance:QA ) 。但在 NVL36 开发仍然存在不确定性,更不用说同时开发2个了。 72 GPU 版本 ( NVL72 与 NVL36*2 ) 。


NVL72 节约信息中心空间。NVL72 如果能够妥善处理 Sidecar 散热设计的挑战, NVL36*2 减少一个机柜,提高数据中心空间效率。


NVL72 推理效率更高。得益于软件的可平行设计 ( Parallelizable design ) ,NVL72 与 NVL36*2 在 AI LLM 训练结果没有太大区别。然而,在非或不容易平行设计的推理过程中 ( 比如自回归模型 ) ,NVL72 表现更容易优于表现 NVL36*2。


顾客的主要偏好。比如微软比较喜欢 NVL72,不是 NVL36*2。


履行公开承诺。 Nvidia 公共场所的宣传重点始终是单柜版。 NVL72,NVL72,为了兑现公开承诺,资源有限, 开发顺位较 NVL36*2 高。


NVL72 开发面临着前所未有的技术挑战,目前量产时间的可见度仍然很低。


NVL72 发展最大的挑战主要来自于 TDP ( Thermal design point ) 要求是 132kW,这是迄今为止功耗最高的伺服器,Nvidia 处理前所未有的技术问题需要大量的时间和供应链。


需注意 TDP 是指持续运行的平均功耗,如果设计不当,瞬间最大功耗 ( Nvidia 称为 EDP ( Electrical design point ) ) 高于 TDP,估计要两个以上的部分 Sidecar,如果是这样的话,不仅提高了散热设计的复杂性和大规模生产的难度,而且失去了 NVL72 节约信息中心空间的优点。


Sidecar 另外一个设计挑战是需要的 Approaching temp 保持稳定 5 – 10 ° C 在内部,如果放宽标准,可能会影响系统的稳定性。


需要注意的是,上述高功耗挑战不仅涉及到 Sidecar,但是所有的部件和系统设计


根据NVL72的最新供应链调查, 大规模生产的时间可能要到 2H25 后 ( vs. Nvidia 乐观主义目标是 1H25 ) 。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com