强强联合的苹果，英伟达，LLM 推理加速利器 ReDrafter 开源

2024-12-20

IT 世家 12 月 19 昨天苹果公司(12日) 月 18 日本)发布博文，宣布与英伟达（Nvidia）通过开源合作 Recurrent Drafter（ReDrafter）推断解码方法，显着提高了 AI 大语言模型（LLM）推理速度。

苹果公司说 ReDrafter 已集成到 NVIDIA TensorRT-LLM 推理加速框架，在 NVIDIA GPU 上面，每秒生成 tokens 最大速度提高 2.7 倍数，有效地降低了客户延迟和核算成本。

苹果的机器学习研究人员指出，LLM 越来越多的应用程序用于驱动生产应用程序，提高推理效率对于降低会计成本和用户延迟尤为重要。

IT 世界援引苹果官方博文，ReDrafter 使用 RNN 结合波束搜索模型，文稿模型（beam search）注意动态树（dynamic tree attention），可以使开源模型每步生成最多。 3.5 个 tokens，超越了之前推断解码技术的性能。

为将 ReDrafter 适用于工作环境，苹果和 NVIDIA 开始合作，集成到合作中 NVIDIA TensorRT-LLM 框架中。

因此，英伟达增加了新的运算符，并公开了当前的运算符，增强了它。 TensorRT-LLM 适应复杂模型和解码方法。

根据基准测试数据， NVIDIA GPU 集成了中间的使用 ReDrafter 的 TensorRT-LLM 框架，数百亿参数的生产模型解码速度提高了 2.7 倍数。这样不但减少了客户体验的延迟，而且减少了 GPU 使用量和功耗。

IT 这个家庭还附有一个参考地址

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com