AI 推理比赛正在升温
虽然英伟达 GPU 在 AI 训练领域的主导地位仍然难以撼动,但是似乎有迹象表明, AI 在推理方面,竞争对手正在追逐这个科技巨头,尤其是在能效方面。然而,英伟达新推出的 Blackwell 优秀的芯片性能可能难以超越。
近期,ML Commons 最新的已经发布 AI 推理竞赛 ML Perf Inference v4.1 的成绩单。本轮比赛包括使用 AMD Instinct 最新的谷歌加速器团队 Trillium 加速器,来自多伦多创业公司 UntetherAI 英伟达最新发布的芯片和芯片 Blackwell 第一次试水芯片。另外两家公司,Cerebras 和 FuriosaAI,最新的推理芯片也发布了,尽管没有提交。 MLPerf 进行评测。
就像奥运会一样,MLPerf 还有很多类别和子类别。“封闭数据中心”类别是提交最多的类别。封闭类别(与开放类别相比)要求提交人在不修改重大软件的情况下按原状运行推理任务。数据中心类别评估批量处理查询的能力,而边缘类别则侧重于减少延迟。
每个类别有 9 根据不同类型的基准测试, AI 任务,包括图像生成等一些流行的使用场景(例如 Midjourney)和 LLM 问答(比如 ChatGPT),以及图像分类、目标识别和推荐引擎等同样关键但可能不那么引人注目的任务。
在这一轮比赛中增加了一个新的名字。 Mixture of Experts 基准测试。这是 LLM 一个日益流行的部署趋势:一个语言模型被分解成几个较小的单独模型,每个子模型都对特定的任务进行了微调,比如常规对话,解决数学问题,帮助编码。每一个查询模型都可以定向于合适的子模型(或称为“专家”模型)。这一方法促使每一次查询都使用更少的资源,从而降低成本,增加吞吐量。
在备受关注的封闭数据中心基准测试中,获胜者仍然是基于英伟达 H200 GPU 和 GH200 非常芯片(包装) GPU 和 CPU)的参赛者。但是,如果对性能数据进行深入分析,我们会发现情况远比表面复杂。有些选手部署了大量的加速器芯片,而其他选手只使用了一块。如果我们根据使用的加速器数量标准化每个参赛选手每秒处理的查询数量,并且只考虑每个加速器类型的最佳性能,一些有趣的细节就会暴露出来。(值得注意的是,这一分析方法没有考虑到。 CPU 以及互连对性能的影响。)
英伟达以单个加速器为前提。 Blackwell 唯一参与芯片的基准测试——LLM 在问答任务中,性能高于所有之前的芯片。 2.5 倍。Untether AI 的 2400speedAI24 在其参与的唯一任务——图像识别中,浏览芯片的性能几乎与 H200 持平。谷歌的 Trillium 图像生成任务中的性能大概是? H100 和 H200 的一半,而 AMD 的 Instinct 在 LLM 性能和问答任务 H100 大致相当。
1 强大的 Blackwell
英伟达 Blackwell 芯片成功的关键因素之一是它能使用它。 4 精确运行位置浮点 LLM。为了提高处理速度,英伟达及其竞争对手一直在努力减少用于表示数据的位数。英伟达正在努力。 H100 中引入了 8 这次比赛在基准测试中首次展示了位数, 4 位数的计算能力。
英伟达商品销售总监 Dave Salvator 指出,使用低精度数字位最大的挑战在于保持模型的准确性。为满足要求 MLPerf 评价所需的高精度标准,英伟达团队不得不在软件层面进行重大创新,他补充道。
Blackwell 另一个关键因素是芯片成功的内存带宽显著提高,达到每秒 8 几乎是兆字节 H200 芯片每秒 4.8 两倍于兆字节带宽。
英伟达 GB2800 Grace Blackwell 非常芯片
Blackwell 虽然芯片在比赛中只使用单个芯片, Salvator 指出,这个芯片是为了实现网络和可伸缩性而设计的,正在与英伟达的。 NVLink 在使用互连技术时,最大限度地发挥效率。Blackwell GPU 支持高达 18 个 NVLink 连接,每个连接的速率是每秒。 100 千兆字节,总带宽达到每秒 1.8 兆字节,大概是 H100 互联带宽的两倍。
Salvator 感觉,随着大型语言模型的不断扩展,推理任务也应该多一些。 GPU 平台可以满足日益增长的需要, Blackwell 芯片就是为应对这种趋势而设计的。Salvator 强调,“Blackwell 不只是一个芯片,它也是一个平台。
英伟达基于 Blackwell 参与芯片基础系统 MLPerf 浏览子类别,这说明芯片还没有出售,但是预计未来六个月内,也就是下一次, MLPerf 在评估发布前上市。
2 Untether AI 在功耗和边缘计算方面表现出色。
对于 MLPerf 每个基准测试都有相应的能源效率测试,系统地评估每个系统在执行任务时的功耗。只有封闭数据中心的能源类别 Nvidia 和 Untether AI 两个家庭提交了测试结果。Nvidia 参加了所有的基准测试,但是 Untether AI 只有参与图像识别阶段。

Untether AI 优异的能效是通过所谓的“内存内计算”来实现的。Untether AI ic设计是由内存元素组成的网格,每个小Cpu都靠近它。Cpu选择并行计算方法,与相邻内存单元格中的数据同步,显著减少了模型数据在内存和计算核心之间传输所需的时间和资源。
Untether AI 商品副总裁 Robert Beachler 表示:“我们发现, AI 在工作负荷中,大概 90% 能源消耗仅用于数据。 DRAM 传输到缓存,然后传输到控制部件。因此,我们采取了相反的策略...将计算单元移动到数据所在的地方,而不是将数据移动到计算单元。"
这是一种创新的方法 MLPerf 在“封闭边缘”子类别中取得了显著成效。该类别致力于更贴近实际使用场景,如工厂机器检查、引导视觉机器人和无人驾驶汽车等。——Beachler 指出,节能和快速处理在这些应用中尤为重要。
图像识别任务时,Untether AI 它仍然是唯一提供评估结果的公司, 2400speedAI24 在延迟性能方面,浏览芯片是 NVIDIA L40S 的 2.8 倍数,吞吐量(每秒处理的样本数)增加 1.6 倍。这个创业公司也提交了功耗数据,但是因为 Nvidia 由于没有提供相关数据,因此很难进行直接比较。不过,Untether AI 的 2400speedAI24 每一个芯片的标称功耗浏览芯片 150 瓦,而 Nvidia 的 L40s 为 350 瓦片,这意味着在延迟性能提高的同时,名义上降低了功耗。 2.3 倍。
3 Cerebras、Furiosa 没有参与 MLPerf 竞赛, 但是新的芯片已经发布
Furiosa 采用一种独特而高效的方法来实现新芯片。 AI 矩阵乘法是推理中的基本数学运算。
最近斯坦福大学举办的 IEEE Hot Chips 大会上,Cerebras 公司推出了自己的推理服务。这个房子位于加州 Sunnyvale 本公司致力于制造大型芯片,使用尽可能大的硅片,以避免芯片间的连接问题,并显著提高设备的内存带宽。这类设备主要用于训练大型神经网络。如今,Cerebras 它的软件栈已经升级,用于最新的计算机。 CS3 执行推理任务。
Furiosa 新型芯片以不同、更有效的方式完成。 AI 最基本的矩阵乘法推理。
虽然 Cerebras 尚未参加 MLPerf 评估,但是公司声称其平台每秒都在发生。 Token 数量比 Nvidia 的 H100 高出 7 比较竞争对手的倍数 AI 初创公司 Groq 的芯片高出 2 倍。Cerebras CEO和创始人 Andrew Feldman 他说:“我们正处在通用人工智能拨号上网的时代。这种情况受内存带宽的限制。无论是 Nvidia 的 H100、MI 300 还是 TPU,它们都使用相同的外部内存,然后受到相同的限制。由于我们的晶圆级技术,我们已经突破了这个限制。”
在 Hot Chips 会议来自首尔 Furiosa 公司还发布了第二代芯片——RNGD。Furiosa 芯片的独特之处在于它所使用的张量收缩Cpu(TCP)架构。在 AI 矩阵乘法是工作负载中的一项基本操作,通常是在硬件中以原语方式实现的。但是,矩阵的大小和形状(即张量)可以发生很大的变化。RNGD 完成了这个更通用的乘法版本作为原语。Furiosa 创始人兼首席执行官 June Paik 在 Hot Chips 会议解释说:“在推理过程中,批号大小差异明显,因此充分利用张量形状的固有并行性和数据器重尤为重要。”
尽管 Furiosa 没有向 MLPerf 递交 RNGD 芯片评估数据,但是公司已经在内部了。 RNGD 芯片在 MLPerf 的 LLM 摘要基准检测中的性能和性能 Nvidia 边缘计算芯片 L40S 比较了一下。数据显示,功耗仅为 185 在瓦的情况下,RNGD 芯片性能和功耗为 320 瓦的 L40S 相当。June Paik 这表明,随着软件优化的进一步深入,芯片性能有望进一步提高。
IBM 他们还发布了一种生成式的方式来满足顾客的需求 AI 新设计的工作负载需求设计 Spyre 芯片,并且计划在 2025 一年一季度推向市场。
最起码,在可预见的未来,AI 在芯片市场推理的买家不会觉得无聊。
原文链接:
https://spectrum.ieee.org/new-inference-chips
本文来自微信微信官方账号“InfoQ”,作者:DinaGenkina,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




