华为提出了一种全新的压缩算法：节省70%的内存。

2025-01-26

快科技 1 月 24 日消息，华为 AI 在人工智能领域，算法团队取得了显著突破，他们对大模型进行了研究和发表。 KV Cache “压缩算法” RazorAttention "。

该算法具有优异的性能，能有效地节约高达 70% 占用大模型推理内存，为 AI 大型高效运行提供了强有力的支持。

其论文《RazorAttention: Efficient KV Cache Compression Through Retrieval Heads》在深度学习领域已经被国际顶级大会深度学习。 ICLR 2025 收录。

华为表示，这一算法是业内第一个基于业界的算法。 Attention 可以解释的离线静态 KV Cache 压缩算法，打破了过去 AI 大型长型序列 KV Cache 目前压缩不理想的情况。

该算法通过设置检索头，确保前后文本中的重要和主要信息不会丢失，确保高精度(偏差低于在1%的情况下，静态有效地将其压缩到最大。 70% 的 KV Cache 占用内存，可以为用户大大节省内存。 AI 大型推理的费用。

目前 RazorAttention 在升腾，算法已经实用化集成。 MindIE/MindStudio，支持主流 8K~1M 长序列 KV Cache 压缩，32K 上述情景增加吞吐量增加 20% 。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com