DeepSeek-V3:“意外”产品被美国芯片封锁?
继电瓶车、消费品之后,中国队还在AI领域上演了一出“成本屠户”的好戏。
用两个月,六百万美元,就可以训练出一个可以和ChatGPT掰手腕的AI模型?Deepseek用实力诠释了“四两拨千斤”的含义。
《幻方量化》旗下的DeepSeek公司宣布发布DeepSeek-V3首款全新系列模型,并同步开源。只用了2048元H800显卡,花了2个月的时间,就训练出了6710亿参数DeepSeek-V3。Llamamamamama相对于Meta训练参数4050亿 使用H100显卡16,384块,需要54天时间。Deepseek的练习效率提高了11倍。
这个问题一出来,连CNBC都不淡定。最近的报道中,记者亲自上手测试后惊呼:“这个模型能力完全可以和OpenAI掰手腕”。

DeepSeek-V3在技术界获得了关注和讨论,堪比游戏界的《黑神话:悟空》,它的影响力甚至让OpenAI CEO奥特曼不冷静,发推特暗戳说“复制总比创新容易”。市场也开始担心:如果每个人都能以如此低的成本训练AI,那些靠卖显卡发大财的“铲子”就会恐慌,英伟达的股价甚至一度下跌。
然而,OpenAI的另一位创始人Karpathy说,这并不意味着前沿LLM不需要大型LLM。 GPU 集群,反而说明AI领域还有许多黑科技等着发掘数据和算法。
因此,Deepseek是如何达到如此惊人的训练效率的呢?这是他们独特的技术解决方案。

少即是多:DeepSeek-V3 高效 AI 新的训练方法
DeepSeek-V3的练习效率水平揭示了它巧妙的训练方法——关键在于更聪明的工作,而不仅仅是依靠更多的硬件投入。
具体而言,Deepseek使用了2048个Nvidia H800 由GPU组成的集群,每个GPU都可以通过NVLink互连实现GPU间通信,节点间通信可以通过InfiniBand互连实现。GPU之间的通信速度相当快,但是节点之间的通信却不是这样,所以提高性能和质量是提高的关键。为了减少它,DeepSeek实施了数十项优化技术 DeepSeek-v3 计算需求,但是几项核心技术促成了其显著的成果,包括:
MoE
与单一庞大的神经网络不同,DeepSeek-V3 采用MoE架构(Mixture of Experts)。MoE的核心理念可以理解为,各行各业都有一群专家共同努力解决问题。面对用户的任务,系统会通过稀疏激活机制,智能识别出最合适的专家来处理,大大降低计算量。
MoE和密集模型(Dense Model)实践成本存在显著差异。虽然MoE模型通常包含更多的参数,但由于其稀疏的激活机制,每次只激活一些专家网络,然后在相同的计算预算下实现更大的模型容量和更高的性能。这使 MoE 与同等规模的密集模型相比,该模型在预训练阶段效率更高,能够以较低的核算成本达到相似或更好的性能。
DeepSeek-V3采用MoE结构设计,而不是像Mixtral那样使用少数大型专家。这种设计使得模型在实际操作中只需激活37B参数,同时总参数达到671B,大大提高了模型的稀疏性。
MLA
DeepSeek-另一个创新是双头潜在注意力(Multi-head Latent Attention,简称 MLA),在大型语言模型中,这是增强注意力机制的常见版本。
在DeepSeek-V2中,MLA是Dexadexadek的原始结构,它的核心概念可以理解为:当我们阅读复杂的内容时,我们的大脑不仅处理了每一个单词,而且捕捉到了它的联系和暗示。MLA让DeepSeek-V3可以同时关注不同部分的信息,从而获得更丰富的理解。这种方法在连接信息点时尤其有用,例如处理复杂的数学问题或编写代码。
FP8
Nvidia H800是专门为中国市场定制的Nvidia,其性能与原型相比。 H100大幅削弱版本。H800限制了集群卡之间的互连速度:大约400GB/s,而且H100可以达到900GB/s。
这一性能瓶颈,使得降低运算通信成为降低训练成本的关键,DeepSeek 运用了 FP8 在不牺牲数值稳定性的情况下,混合精度框架可以更快地处理速度和更低的内存占用。矩阵乘法等关键操作 FP8 进行,嵌入层、归一层等敏感部位保持较高精度(BF16) 或 为了确保准确性,FP32。该方法在减少内存需求的同时保持稳定的准确性,并始终保持与训练损失相比的偏差。 0.25%之内。
使用FP8精度是DeepSeek-V3的一项重大创新,V3是首款通过FP8混合精度训练成功获得的开源大参数MoE模型。这就意味着它所需的内存更少,并且可以显著加快处理速度。
Duxadaxadlxadpxadixadpe
通过计算和通信阶段的重叠设计,DeepSeek团队开发的DualPipe算法提高了流水线的并行性能,有效地降低了跨节点专家的通信费用。与此同时,它们改善了跨节点通信的核心,提高了带宽利用率,减少了通信所需的计算资源。DualPipe算法显著缓解了训练瓶颈,尤其是MoE架构所需的跨节点专家平行性,这些提升促使团队完成V3练习,无需使用成本较高的张量平行技术。

利空计算率?软件创新的硬件限制催生
从外界的角度来看,DeepSeek仍然可以在芯片性能差、资金和GPU使用时间少的前提下取得更好的表现。考虑到他们所面临的。 AI 硬件资源的限制,这一成就特别值得关注。
2022年10月,美国对中国实施了一般的芯片出口限制,以防止中国成为人工智能和计算领域的强国:这是中美持续的“芯片战争”中的诸多打击之一。
这些芯片限制的初衷是通过切断中国的顶级硬件来限制中国在AI领域的发展。英伟达推出了针对中国市场的“定制版”H800芯片,以应对新规,保持其在中国市场的竞争力。
DeepSeek-V3的成功可能意味着一个有趣的转折点:软件创新正在突破硬件限制。如果他们的技术报告是真的,这可能意味着中国已经在芯片竞争中占据了上风。理论上,受限的芯片应该限制他们的R&D突破。但事实上,Deepseek在研究和产品上取得了重大突破,证明了另一种方式的概率。
正是因为中国工程师拿不到最好的硬件,中国工程师在算法、架构、训练策略等软件上的创新得到了客观的推动,他们被迫开发出充分利用手头资源甚至突破传统极限的新方法。相反,它迫使更多的软件创新,而不仅仅是通过硬件积累。
相反,这使得美国对中国的限制变得非常具有讽刺意味。假如软件技术越来越强大,那么使用什么样的硬件可能并不重要。
不过,DeepSeek 除了R&D成就之外,V3还引起了一些争议,用户发现这个模型在某些情况下会声称自己是ChatGPT。
一种可能的解释是,DeepSeek-V3的训练数据会将ChatGPT的形成内容混合在一起,导致模型在学习过程中混淆。另一种可能是DeepSeek在训练过程中使用GPT模型进行知识蒸馏,即使用GPT模型导出 指导DeepSeek-V3学习的“教师信号”。
一位大型从业者告诉硅星人,“数据蒸馏对成本影响不大。如果只是通过数据蒸馏,为什么别人不这么做?Deepseek必须依靠独特的实践和工程实践方法。”
在压力和限制下,创新通常以意想不到的方式出现。中国工程师正在用实际行动证明,即使面对硬件限制,他们仍然可以在AI领域取得显著的成就。这种由需求驱动的创新很可能会继续带来一些突破性的想法。
对人工智能产业而言,DeepSeek-V3 这意味着大型语言模型的开发方法可能会迎来范式的变化。通过巧妙的工程设计和高效的培训方法,不依赖庞大的计算资源,可以实现前沿的人工智能能力。随着DeepSeek-V3的出现,市场变得更加多样化,为开发者、内容创作者甚至小型创业公司提供了更多的选择。
当然,如果未来OpenAI、Meta和其他公司利用更大的算率集群来培养更优秀的性能模型,行业可能会再次掀起超大规模预训练的热潮。
到那时,行业将再次回到计算军备竞赛的老路,AI领域的“卖铲人”将继续成为最大的赢家。
本文来自微信公众号“硅星人Pro”,作者:星期一笑,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




