刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA

09-30 06:21
还是熟悉的节奏!在假期前一天,DeepSeek果然搞事了。

刚刚,DeepSeek - V3.2 - Exp开源了!

该模型参数量为685B,HuggingFace链接:https://huggingface.co/deepseek - ai/DeepSeek - V3.2 - Exp。此外,此次发布竟然也同步公开了论文,公开了DeepSeek新的稀疏注意力机制,为我们提供了更多技术细节:

https://github.com/deepseek - ai/DeepSeek - V3.2 - Exp/blob/main/DeepSeek_V3_2.pdf。

DeepSeek Sparse Attention(DSA)稀疏注意力机制

在官方介绍中,DeepSeek表示DeepSeek - V3.2 - Exp是实验版本。作为迈向下一代架构的过渡,V3.2 - Exp在V3.1 - Terminus的基础上引入了DeepSeek稀疏注意力机制(DeepSeek Sparse Attention,DSA)—— 一种旨在探索和验证在长上下文场景下训练和推理效率优化的稀疏注意力机制。DSA也是3.2版本的唯一架构改进。

DeepSeek - V3.2 - Exp的架构,其中DSA在MLA下实例化。重点要说的是,DeepSeek称该实验版本代表了他们对更高效的Transformer架构的持续研究,特别注重提高处理扩展文本序列时的计算效率。

在v3.2版本中,DeepSeek稀疏注意力 (DSA) 首次实现了细粒度稀疏注意力,在保持几乎相同的模型输出质量的同时,显著提高了长上下文训练和推理效率。为了严格评估引入稀疏注意力机制的影响,DeepSeek特意将DeepSeek - V3.2 - Exp的训练配置与9月22日刚刚推出的V3.1 - Terminus进行了对比。在各个领域的公开基准测试中,DeepSeek - V3.2 - Exp的表现与V3.1 - Terminus相当。

更多信息,读者们可以查阅DeepSeek - V3.2 - Exp的huggingface介绍。值得一提的是,智谱的GLM - 4.6也即将发布,在Z.ai官网可以看到,GLM - 4.5标识为上一代旗舰模型。

最后,有一波小节奏。在模型发布前,已经有网友在Community里发帖称:国庆是休息日,请给我们关注的同学一点休息时间。

对此,你怎么看?本文来自微信公众号 “机器之心”(ID:almosthuman2014),作者:关注大模型的,36氪经授权发布。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com