强强联合的苹果,英伟达,LLM 推理加速利器 ReDrafter 开源

2024-12-20

IT 世家 12 月 19 昨天苹果公司(12日) 月 18 日本)发布博文,宣布与英伟达(Nvidia)通过开源合作 Recurrent Drafter(ReDrafter)推断解码方法,显着提高了 AI 大语言模型(LLM)推理速度。


苹果公司说 ReDrafter 已集成到 NVIDIA TensorRT-LLM 推理加速框架,在 NVIDIA GPU 上面,每秒生成 tokens 最大速度提高 2.7 倍数,有效地降低了客户延迟和核算成本。


苹果的机器学习研究人员指出,LLM 越来越多的应用程序用于驱动生产应用程序,提高推理效率对于降低会计成本和用户延迟尤为重要。


IT 世界援引苹果官方博文,ReDrafter 使用 RNN 结合波束搜索模型,文稿模型(beam search)注意动态树(dynamic tree attention),可以使开源模型每步生成最多。 3.5 个 tokens,超越了之前推断解码技术的性能。


为将 ReDrafter 适用于工作环境,苹果和 NVIDIA 开始合作,集成到合作中 NVIDIA TensorRT-LLM 框架中。


因此,英伟达增加了新的运算符,并公开了当前的运算符,增强了它。 TensorRT-LLM 适应复杂模型和解码方法。


根据基准测试数据, NVIDIA GPU 集成了中间的使用 ReDrafter 的 TensorRT-LLM 框架,数百亿参数的生产模型解码速度提高了 2.7 倍数。这样不但减少了客户体验的延迟,而且减少了 GPU 使用量和功耗。


IT 这个家庭还附有一个参考地址


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com