华为提出了一种全新的压缩算法:节省70%的内存。

01-26 08:09

快科技 1 月 24 日消息,华为 AI人工智能领域,算法团队取得了显著突破,他们对大模型进行了研究和发表。 KV Cache “压缩算法” RazorAttention "。


该算法具有优异的性能,能有效地节约高达 70% 占用大模型推理内存,为 AI 大型高效运行提供了强有力的支持。


其论文《RazorAttention: Efficient KV Cache Compression Through Retrieval Heads》在深度学习领域已经被国际顶级大会深度学习。 ICLR 2025 收录。


华为表示,这一算法是业内第一个基于业界的算法。 Attention 可以解释的离线静态 KV Cache 压缩算法,打破了过去 AI 大型长型序列 KV Cache 目前压缩不理想的情况。


该算法通过设置检索头,确保前后文本中的重要和主要信息不会丢失,确保高精度(偏差低于 在1%的情况下,静态有效地将其压缩到最大。 70% 的 KV Cache 占用内存,可以为用户大大节省内存。 AI 大型推理的费用。


目前 RazorAttention 在升腾,算法已经实用化集成。 MindIE/MindStudio,支持主流 8K~1M 长序列 KV Cache 压缩,32K 上述情景增加吞吐量增加 20% 。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com