DeepSeek 爆红的背后,一定要看清三大趋势。

内容来源:量子化教育,企业人才培养优质内容及创新解决方案服务商。
分享嘉宾: 清华大学计算机博士陈邈,阿里云MVP。
春节前夕,DeepSeek-R1模型宣布开源,下载量迅速登上免费榜首。随后,它引起了美国资本市场的巨大波动,计算率巨头英伟达出现了罕见的股价下跌17%...
DeepSeek开源后对资本和技术有什么影响?是什么让它拥有如此大的能量?怎样才能拥抱DeepSeek带来的新AI时代?AI在DeepSeek之后会有哪些新的趋势?
本文将由清华大学计算机博士、阿里云MVP(人工智能领域最有价值的专家)陈邈一一一解读。
首先,DeepSeek的影响力
对手感到恐惧,资本青睐。
2025年1月20日,DeepSeek-R1模型正式发布;苹果App于1月26日在中国区和美国区发布; 同时,Store中的免费名单也位居第一。
随后,美国金融市场大幅波动,标准普尔500指数在10天内下跌近10%。1月27日,英伟达股票暴跌17%,美股主要科技公司(英伟达、微软、Meta、总共有数亿美元的市值,亚马逊等。
在DeepSeek-R1出现之前,计算率是大型模型训练的重要因素。美国限制英伟达显卡在中国的使用。因此,人们普遍认为美国在AI模型方面的领先优势是“断层式”,这也是美国对华科技采用“小院高墙”战略的底层逻辑。
DeepSeek用少量的显卡训练出与之媲美的模型,相当于打破了美国在人工智能领域对华的战略限制。
甚至OpenAICEO山姆奥特曼也重新思考了OpenAI的开源策略,并迅速推出了o3-mini模型,在使用过程中开放了思考推理过程。
在此之前,OpenAI并没有完全开源。我们只能使用o1模型,现在我们可以使用它的o3模型进行更深入的思考。
使用OpenAI o3 mini与DeepSeek 通过对比R1的应用,我们可以发现DeepSeek-R1的探索时间更长,思维逻辑更完整,推理效果更好。
同时,DeepSeek会充分展示推理过程,而OpenAI之前不会展示思考过程,而思考过程实际上是非常有价值的。
今年1月,美国宣布“星际之门”计划,软银向OpenAI投资400亿美元,用于OpenAI对星际之门的承诺,投资后估值达到3000亿美元;而且DeepSeek具有与OpenAI相比的能力,同样受到国内近百家资本的青睐,对其表达了投资意向,可以预见DeepSeek的估值将达到一个新的高度。
2.DeepSeek开源,行业争相部署
自从DeepSeek宣布开源R1以来,各行各业都开始整合或部署DeepSeek的相关模型。
国内华为云、百度智能云、阿里云、腾讯云、JD.COM云、火山引擎、三大运营商等云平台纷纷部署DeepSeekR1/V3模型。
亚马逊、微软、英伟达、AMD等国外渠道也迅速将DeepSeek R1/V3模型部署或整合到相关产品和服务中。
在工业方面,吉利、岚图、东风、广汽、智己、长城、宝骏、零跑等车企也宣布将与DeepSeek融为一体,未来智驾也能体验到与DeepSeek的互动。
在金融行业,国泰君安、国金证券、兴业证券、广发证券等证券机构进行了本地化部署和调试,应用于行业研究、市场判断、风险控制、信息检索、文档处理等多种场景。
当然,部署和发展还需要一定的测试过程,但也体现了各行各业不甘落后的状态,这也说明了融合使用先进的大模型将是必然趋势。
DeepSeek撕破了算率面具。
1.完整版的DeepSeek和蒸馏版
完整版本的DeepSeek尺寸为671B,因为采用了创新的MOE结构,在推理过程中激活了少量的参数,所以推理速度更快,所需的训练资源也更少。
Qwen2.55SeepSeek蒸馏版-Math-1.5B、Qwen2.5-Math-7B、Uama-3.1-8B、Qwen2.5-14B、Qwen2.5-32B、Llama-多个尺寸,如3.3-70B-Instruct。在国内,Qwen2.5被选为两种开源模式进行训练,而Llama被选为海外,蒸馏模式更小、更快,但能力相对较弱。
蒸馏版是对性能要求不高、GPU资源有限的公司的更好选择。因为整个版本所需的显存是496GB,而R1:1.5B只需2G显存,R1:7B还只需8G显存,最高R1:70B蒸馏版也只需128G显存,大大降低了私有部署的资源要求。
蒸馏技术路线,让DeepSeek R1性能大大提高
在R1模型之前,DeepSeek推出了V3通用模型,与历史模型相比,推理速度有了很大的提高。曾经,在模型的主流榜单中,它位于开源模型的第一位,与世界上最先进的闭源模型相当。
与OpenAI相比,V3模型最大的特点是训练成本极低,所需的显卡数量和训练时间仅为零头。
V3模型于2024年12月正式推出,但当时并没有太大的波澜。
基于V3模型,GRPO采用新的奖励系统。(group relative policy optimization),并且使用规则类验证机制自动对导出进行评分,在一个多月内训练出DeepSeek-R1模型,性能堪比GPT-o1模型,使得R1迅速火出圈。与V3模型相比,R1模型的性能也有了很大的提高。
R1模型遵循MIT License(一个非常宽松的开源许可协议,用户可以自由使用、修改、分发和商业化软件或模型。),允许用户通过R1训练其他模型使用蒸馏技术。
相比之下,Meta Llama的License比较严格,虽然LLaMA3是开源的,但是许可协议限制了商业行为和模型的修改,例如,如果新模型采用LLaMA,则需要名称上有LLaMA标识。
DeepSeek-R1推出了API,导出了对用户开放的思维链。因此,一旦发布,许多企业就宣布将DeepSeek-R1的每个版本结合起来。因为是一个完全开源的模型,所以在版权上降低了很多风险。
开源DeepSeek-R1-Zero和DeepSeek-通过DeepSeek-R1输出,R12个660B模型同时蒸馏出6个小模型,其中32B和70B模型在多种能力上比较了0penAlo1-mini的效果。.
3.创新策略和DeepSeek产生的效果
①创新策略
首先,引入MLA(Multi-Head Latent Attention)。
在“All you need is attention“在传统多头注意力的背景下,(MHA,Multi-Head Attention)的键值(KV)事实上,缓存机制对计算效率构成了很大的阻碍。减少KV缓存(KV Cache)尺寸,性能提高,在以前的模型架构中没有得到很好的解决。
DeepSeek引入了MLA,一种通过低秩键值联合压缩的注意机制,在显著降低KV缓存的同时提高了计算效率。在MLA之前,很少使用大模型计算,因为低秩序类似于快速矩阵计算。
Prefill和Prefill以及大型模型架构的演变KV Cache容量瓶颈的问题正在被新的模型架构一步步突破,巨大的KV Cache正逐渐成为历史(事实上,DeepSeek-V2在2024年6月发布,KV已经很好地减少了。 Cache的大小)。
其次,DeepSeek-MoE架构策略的创新运用。
使用了61个MoEEV3(Mix of Expert混合专家)block,虽然总参数很大,但是每一次训练或者推理都只激活了很少的链接,训练费用大大降低,推理速度明显提高。
三是DeepSeek选择混合精度框架。
数据的存储精度因块而异。我们知道精确度越高,内存占用越多,计算越复杂。
在一些不需要高性能的模块中,DeepSeek使用非常低精度的FP8存储数据,大大降低了训练计算量。
② 创新战略的效果
首先,处理速度快,成本低。
在结构模式方面:DeepSeek 在推理过程中,MoE架构只激活部分专家,避免了激活所有参数造成的计算资源浪费;通过降秩KV矩阵,MLA架构降低了显存消耗。
训练策略:在训练过程中采用多token预测(MTP)目标,即在每一个位置预测多个未来token,增强训练信号的密度,提高数据效率。
对于占据大量计算量的通用矩阵乘法,在训练中(GEMM)操作,选择FP8精度;同时,低精度训练中的量化误差问题通过粗粒度量化策略和高精度累计过程解决。
其次,强大的推理能力。
加强学习驱动:DeepSeek-R1通过大规模强化学习技术显著提高了推理能力。它在数学、代码和自然语言推理方面表现出色,性能相当于OpenAl的o1官方版本。
长链推理(CoT)技术:DeepSeek-R1采用长链推理技术,其思维链长度可达数万字,可逐步分解复杂问题,通过多步逻辑判断解决问题。
怎样有效地使用DeepSeek?
1.各种使用DeepSeek的方法及其表现
首先,直接访问DeepSeek网站。虽然是免费的,但是由于浏览量太大,表现极不稳定。
其次,在GitHub上下载cherry。 Studio(或其他一些工具),使用Cherry。 Studio DeepSeek 当地部署API。但是官方的DeepSeek API也有不稳定的情况。
三是使用Cherry。 Studio DeepSeek第三方云制造商 本地部署API。DeepSeekAPI与官方API相比,使用第三方云制造商的价格要稳定得多。
部署后,除了DeepSeek之外,Cherry还可以使用OpenAI。、月亮暗面,智谱清言等API。
假设我们来解决一个高考数学题:集合A中的所有元素都是三位正整数,没有重复数字,元素中的任何两个积都是双数。集合中元素数量的最大值是多少?
这是一个非常复杂和困难的问题。如果使用通义千问等通用大模型,很有可能无法得到正确答案,而DeepSeek则通过分步深入思考长链,一步步给出正确答案。
简单应用:2.简单应用:DeepSeek 知识库
以建立投资研究框架为例,我们将使用DeepSeek 应用知识库。
第一步是配备embedding模型。嵌入模型,向量化知识库,快速搜索;选择嵌入模型(可以通过硅基流动),在Cherry中 在Studio设置中,设置相应的API。 Key。
步骤二,整理知识库。Cherry 在studio的知识库中,配备了投资研究报告的知识库,并上传了相关的投资研究报告(主要用于处理知识库中的文字,因此知识库支持PDF、PPT、Excel、各种文本文档,如word)。之后,你就有了当地的知识库。
步骤三,在智能对话助手中,选择相应的知识库。
最终,对知识库进行提问。能看到,DeepSeek将进行长链思考,并呈现思考过程。
需要注意的是,虽然云厂商不会轻易收集你的数据,但并不能100%保证数据的安全。建议对企业敏感数据(如财务和营销数据)进行当地私有化部署。
复杂应用:3.复杂应用:DeepSeek Cursor
DeepSeek的深度思考能力不能完全呈现在知识库中,更复杂的任务,比如物理世界的小球碰撞试验,可以通过其他工具(比如Cursor)来完成。
第一,我们在Cursor。【File->Preferences->Cursor Settings】DeepSeek-r1和DeepSeek-v3模型设置在中间。
接着,openAI API 在Key中设置(这里选择openAI协议),可以使用自定义模型。
在设置了DeepSeek-r1和DeepSeek-v3模型之后,您可以在Cursor中选择该模型进行编程。
让我们看一个实际的例子:一个红色的球在三角形区域运动,遇到界限就反弹,写一个HTML网页。
Cursor将创建一个新项目,动态显示编程结构。然而,经过长链思考,DeepSeek编写了HTML代码,但代码运行可能不符合要求,需要进一步调整。在调整过程中,我们只需要发布语言(文字对话)指令。
调整过程如下:
基于之前的探索,帮助我完善HTML。(动作:DeepSeek思考并改进HTML代码。效果:HTML风格已经调整,但是球体仍然会飞出三角形区域,需要进一步调整。)
球弹后,弹出啊,帮我检查代码…
考虑到球体的重力和三角形区域的承载能力,球体的弹性得到了改善...
每一次运转,球都能随意抛出…
球体弹性更大…
最后到地面都是垂直弹跳,不该再滚了,还是有水平的速度…
以下是一个刷新按钮,可以重新执行HTML…
中文显示器是错码,另外考虑到手机显示器,页面需要自适应…
经过多次校准,DeepSeek终于生成了符合我们要求的HTML代码,并在Cursor工程中演示了效果。
通过上面的演示,我们发现,即使我们不知道代码,我们也可以通过DeepSeek来完成机器编程,从而达到预期的效果。
这次,AI的确“智能化”了。
自从AlphaGo和围棋世界冠军李世石大战以来,人工智能逐渐介入到我们的生活中。机器第一次可以独立思考,完成简单的任务(其实打败世界冠军并不容易)。
人工智能在发展过程中也曾被我们吐槽为“人工智能障碍”,但是从OpenAI开始,人工智能就会逐渐处理一些复杂的任务,而DeepSeek则表现出超越普通人的长期思维链接,我们不得不感叹:AI的确是“智能”。
可以看出,在学习过程中,处理复杂的任务有一个逐渐成熟的过程,一切都可以从最简单的开始。如果你有一些常见的思考、自我更新、自我迭代的能力,你就可以完成一些更有价值的作品。
比如你是投资分析师,你会用什么样的AI助手来帮助完成投资研究报告?如果你用一般的大模型(相当于文科生)写报告,你可能也会实现你的目标,但显然缺乏严格的逻辑判断过程。
所以可能会导致市场盲目跟投或者疯狂践踏,而DeepSeekR1模型的严谨推理过程,能够胜任你的助手。
第四,DeepSeek举起桌子,开通另一条路
李飞飞复刻R1模型50美元。
R1及其蒸馏模型推出后,李飞飞团队用不到50美元的云计算费,成功地训练出了一种名为s1的推理模型。该模型在数学和编码能力方面的表现与0penAIo1和DeepSeek-R1等尖端推理模型相当。
S1模型训练只使用了1000个样本数据,具体流程如下:使用Gemini对这1000个样本进行健全推理,然后对Qwen模型进行监管和微调。
新闻出来了,曾经在网上霸屏。但是我们也要了解这个模型的成功背景:
第一,s1模型是通过进一步训练阿里Qwen和谷歌Gemini大模型,站在巨人的肩膀上;
第二,成本低的原因是只使用了1000个样本(对于企业来说,1000个样本可能就够了,但不可能训练出完整的大模型),26分钟就花了50美元,达到了理想的推理效果(类似于o1)。
换句话说,每一个企业,将来每个人都可以使用1000个样品进行精细的训练,以达到类似的效果。
若稍作执行,可发现s1模型背后有其独特的方法论:
首先,数据集的构建有三个标准(难度、多样性和质量)。从这三个标准出发,选择了1000个问题和相应的推理路径。
S1的数据集包括数学竞赛、物理竞赛等各个领域,并增加了两个原始数据;s1-prob和s1-teasers,它们各自包括概率问题和定量交易面试中的难题。
其次,使用预算强制技术。这是一种通过强制停止或延长模型思维过程来控制测试时计算的技术(通过添加”wait“字符串),让模型有机会再次检查答案,从而可以纠正错误的推理步骤。
有三种强制策略可以用于预算强制技术。
一是设定思维时间限制:当模型开始处理一个问题时,首先为它设定最大的思考时间(以token数量来衡量)。如果模型在这段时间内思考并准备给出答案,则按照正常流程进行。
第二,强制结束思考过程:如果模型生成的探索token超过预设的最大值,系统将强制停止模型思维过程。这通常是通过添加一个特殊的end。-of-thinking token 实现delimiter,推动模型停止进一步推理,并转化为最终答案。
第三,激励更深层次的探索:如果你想让模型花更多的时间去思考一个问题,你可以抑制end-of-thinking token 在当前的推理路径后面,delimiter的形成增加了“wait“字符串=>为了给模型一个重新评估之前的推理步骤的机会,可以纠正一些快速但不准确的答案。
继DeepSeek之后的AI趋势
趋势一:小型将成为主流(大型蒸馏)。
大模型的推理能力通过蒸馏技术成功转移到小模型中,显著提高了小模型的性能。(DeepSeek-R1-Distil-Qwen-AIME中的7B 32B模型在2024比赛中被击败)。
趋势二:利用生成数据进行练习成为主流。
蒸馏信息虽然是公开的秘密,但很多表现并不是蒸馏所能解释的。比如v3的中文能力,很多单词和表达都很接地气,可能是数据合成方法的预训练。
趋势三:AI模型将自我迭代(加强学习新范式)。
让模型自己做题,自己检查。步骤一:模型自己做题(如100万道);步骤二,模型本身检查是非;步骤三,选择验证正确的内容,将结果和思维链形成新的数据。
比如在100万个问题中,经过模型检查,发现有1万个可以验证是正确的,所以解决这1万个问题的思维链就成了新的训练数据。通过不断的迭代,我们发现了人类以前没有探索过的地方。(类似于AlphaGo-Zero击败AlphaGo)。
本文来自微信微信官方账号 “笔记侠”(ID:Notesman),作者:36氪经授权发布的陈邈。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




