刘润：DeepSeek这把火，为什么会烧坏硅谷？

2025-02-03

许多人在后台给我留言，让我讲讲。 DeepSeek。这个大春节。我想睡懒觉。然后看电影。然后睡懒觉。然后看电影。我什么都不想写。但是，DeepSeek 真是太火了。

火势达到什么程度？

几周内，美国的一场山林大火烧毁了加州。 2500 亿美金。而 DeepSeek 纳斯达克出现了暴跌 3%，瞬间烧掉 5000 十亿美元。什么概念？要是这样 5000 十亿美元换成百元美刀，用飞机运到焚烧厂烧，需要烧， 87 装满空客的架子 380。

美国人很害怕。

但是，DeepSeek 这个火，为什么会烧坏硅谷？DeepSeek，到底厉害在哪里？难道他被高估了吗？有人指责 DeepSeek “盗窃”，是真的吗？

今天。让我们谈谈这件事。从哪里开始？就从为什么美国人这么害怕开始。这种恐惧来自心中的一根刺。一根针不能碰，一碰就疼。

这个刺的名字叫：斯普特尼克时刻。

斯普特尼克时刻

1957 年 10 在这个月的一天，许多美国人走出家门，惊恐地看着天空。他们听说苏联人在地球周围发了一个“篮球”。以每小时的速度 29000 公里。她们试图用人眼来寻找这个“篮球”，它不停地在她们的头上转圈。

这个“篮球”的名字叫斯普特尼克（sputnik）。那肯定不是篮球。那是一颗人造卫星。

人类历史上第一颗人造卫星。

人类历史上第一颗人造卫星，“其实”并不是自己发射的。美国人很难接受。你能想象吗？就像连续三年全年第一，突然发现清华唯一提前录取的不是自己。

斯普特尼克号卫星，就像一根刺，伤害了那一代美国人。

随后，美国正式成立。 NASA(美国航天局)，并以全国的力量完成登月。刚刚拔掉了心中那根叫做“斯普特尼克”的刺。

68 今天，年后，DeepSeek 让美国人看到另一个“斯普特尼克”时刻。

拼多多，大模型届

你试过 DeepSeek 了吗？

快点试试。挺好的。推理能力，直追。 OpenAI 的 ChatGPT o1。而且，不要越墙。不需要美国信用卡。不用担心，因为不小心被发现是中国客户，被系统“歧视”封号。太骄傲了。

但是这些都不是最重要的。最重要的是：DeepSeek 真是太太便宜了。

ChatGPT o1 完成一次训练的费用，据说要几亿美元。而且 DeepSeek，只需不到 600 万美元。

1/20。太便宜了，不敢相信。

就像有人指着一个 20 万的新能源汽车，说 1 一切都卖给你。便宜得令人难以置信。您忍不住问，这个只会唱：爸爸的爸爸是爷爷？

快速正确的美国科技界 DeepSeek 做了各种评价。然后，我很震惊。这个“大模型品多多”，真正的推理能力和推理能力。 ChatGPT o1 非常接近。

接着，英伟达股票大跌 17%。原来，训练一个模型并不需要像你说的那么多。 GPU 啊。DeepSeek，竟做了所有硅谷科技巨头都没有做到的事情。

那么，DeepSeek，到底是怎么做到的？

被“逼”了。被“年级第一”的“小院高墙”战略所逼。

小院高墙

2018 2000年，美国首次提出了对华科技的防御策略:小院高墙。“小院”(半导体、微电子、量子信息技术、人工智能等)。)与美国国家安全有关，“高墙”(出口管制、限制签证、审查投资等)建设在中国。).

随后，2022 2008年，美国开始禁止英伟达对中国高档出口。 GPU。这些 GPU，对训练 AI 大型模型尤为重要。

怎么了？做好朋友不行吗？不要做朋友，做生意也可以啊。公平交易，共谋发展。有必要这样隐瞒吗？

嘿。您不明白“年级第一”的态度。

上课时，倒数第一，倒数第二，一般都是好哥们。但正数第一，正数第二，基本上都是死敌。

我之前帮你做作业，是因为你后来进去了。我很高兴你取得了进步。但没想到，你不知道好歹，只帮了几天，你就想代替我的“年级第一”。怎么会这样？橡皮是我。GPU 还有我的。再也不借给你了。

那就是“年级第一”的态度。

那么我们该怎么办？就这样认输吗？没 GPU，怎么训练 AI 模型呢？

创新。

在资源无限的时候，不需要创新。真正的创新，都发生在缺乏的时候。

例如：混合专家系统。

混合专家系统

混合专家系统，即 Mixure of Experts。简称 MoE。

咱们去医院看病。医院的 50 每个医生都是最好的全科医生。内科、外科、儿科、心血管科、脑科甚至妇科。什么都懂，什么都能治好。当然，这是最好的。但是成本太高了。因为每个医生都可能 30 每年都可以毕业。

它就像一个大模型。一个模型， 50 一个博士学位，可以回答所有问题。这个当然好。但是真的太烧了。 GPU 了。

并且，GPU 都在美国的小院子里。我没有啊。怎么办？

也许你可以试试，把医院分成不同的科室。内科只在乎内科，外科只在乎外科。这样，“训练”医生的难度不就降低了吗？

用 50 一个便宜的专业医生，而不是一个昂贵的全科医生。然后，设置一个导诊台，根据病情将患者分配给不同的医生。问题解决不了吗？

那就是混合专家系统。

混合专家系统大大降低了专家系统 AI 练习费用。

强化学习

大型训练模型的另一个重要成本是人工标签。

这张照片是一只小狗。那张照片是一只小猫。如果标记清楚，人工智能就不会错。使用人工标签和监督 AI 学习过程。那就是“监督学习”（Supervised Learning）。

“监督学习”，为许多第三世界国家创造了大量的职位。所以有一句开玩笑的话：

有多少“人工”，就有多少“智能”。

那么，这个费用，能不能也省下来呢？

当孩子学会走路时，他们不会使用任何标记的照片。这个姿势是正确的，那个姿势是错误的。孩子们，按照照片上的姿势走。从来没有。

孩子是怎么走路的？就走吧。如果你摔倒了，你的屁股会痛。如果你稳定了，你妈妈会拥抱你。孩子会根据这种惩罚和奖励反馈自动调整姿势，突然走路，直到最后一刻。

那就是：加强学习。Reinforcement Learning。简称 RL。使用激励函数，而非标记数据，以便学习。从而大大降低训练成本。

MoE RL。

真的不容易。为什么美国人不先做？

这是因为他们不缺 GPU 啊。很多创新，都是“逼”出来的。

DeepSeek 还有一个特别之处，那就是：开源。

开源

还有一件很讽刺的事情。你们已经知道了。OpenAI，其实并不 Open。

你还不知道什么？那么听我跟你好好谈谈。

ChatGPT 2.0 之前，OpenAI 它是开源的。模型代码和权重，对所有人都是公开的。但是自从 ChatGPT 3.0 开始，OpenAI 选用闭源。” OpenAI "变为了" CloseAI "。

事实上，这是可以理解的。大型训练模型实在是太花钱了。渐渐地大家也开始接受：要想拥有高质量的模型，就必须选择闭源。

直到，DeepSeek R1 出现。并且开源。

但即使你的成本很低，也只有 OpenAI 的 1/20，也没必要开源吧？归根结底，你也要活下去啊？您开源，图片是什么？

图：生态。

我只有 200 一个工程师。即使他们都毕业于浙江大学、北京大学和清华大学，也只有 200 个人。微软、谷歌、谷歌、OpenAI 比。

那么怎么办？整个开发者生态的团结。

我将向全世界免费披露所有的研究成果、模型代码和权重。这样会吸引大量的开发者来使用我的模型，检测我的模型，改进我的模型。

代码很重要。但是生态学更重要。

用代码换取整个生态的支持，也许是抵抗巨人的唯一途径。

明白了。但你是如何生活下去的呢？

别担心。大型开源模型，也可以赚钱。

开源也可以赚钱

大型开源模型，至少有三种赚钱方式。

首先是“双代码方式”。

免费开放的基本代码。这对大多数人来说已经足够了。但对于一些大企业来说，他们希望设置一些权限、分类管理等各种“高级能力”可以收费。

二是“保险费方式”。

如果是代码，就会出现问题。大型企业对服务的稳定性和响应的及时性有很高的要求。因此，大企业很可能会购买“保险”服务，以确保有人会处理问题。

三是“云服务模式”。

对于中小企业和个人来说，可以像用水用电一样直接调用。 DeepSeek 的 API，使用 DeepSeek 云“智能资源”，然后按“度”(百万” token）付费。

无论是开源还是闭源。只需创造价值，就可以赚钱。所以，不必为此。 DeepSeek 担忧。

而且不用担心英伟达。

杰文斯谬论

DeepSeek 这个“大模型的拼多多”问世了。当天，英伟达股票暴跌 17%。投资者担心人们不再需要那么多。 GPU 了。

事实上，每个人都不必太担心。给你讲个故事。

1776 2008年，瓦特对蒸汽机进行了改进。与老式蒸汽机相比，瓦特蒸汽机节约 2/3 煤炭。所以人们欢呼：煤炭的消耗，将从此大大降低。

但是实际情况，恰恰相反。英国经济学家杰文斯发现，蒸汽机的效率提高了 10 与此同时，煤炭消耗不但没有减少，反而上升了。 100 倍。

为什么呢？

因为蒸汽机的效率提高了，以前买不起煤的人觉得自己买得起。于是一个接一个地建厂。工厂数量的急剧增加导致煤炭消耗的强烈反弹。

那就是著名的“杰文斯谬论”。

英伟达的显卡也是如此。

DeepSeek 大大提升了 GPU 使用效率。在短期内，这可能会导致 GPU 消费减少。但是随后，将会有更多的人加入模型训练阵营，从而导致显卡需求激增。

果不其然。愚蠢的纳斯达克，第二天就醒了。英伟达的股票回升了。 8%。

缓过神来之后，在一片赞叹中，也渐渐出现了各种各样的质疑和指责。

比如：蒸馏。

蒸馏

美国白宫顾问 David Sacks 明确表示，有“实质性证据”证实，中国 AI 企业 DeepSeek "蒸馏"（distill）了 OpenAI 模型。他把这种“蒸馏”行为比作“盗窃”。

嗯 …… 如果你赢不了，你会污蔑吗？“蒸馏”这一指控，非常严重啊。

先解释一下，什么叫“蒸馏”？

有两种模型。教师模型（teacher model），学生模型（student model）。同学们不停地向老师提问，并把“问题” - “写下答案”。然后用这些“问题” - 回答“数据，训练学生，进而使学生拥有与教师非常接近的知识和技能。它被称为：蒸馏。

那是蒸馏啊？不过，学生向老师学习，也没什么问题吧？

是啊。学习没有问题。但是，ChatGPT 用户协议中明确表示，我们不能使用我的模型来训练新模型，尤其是用于与我竞争的模型。换句话说，严禁蒸馏。使用 ChatGPT，就要遵循 ChatGPT 使用协议。那是诚信问题。

另外，牛顿花了 30 一年创造了万有引力定律。我花光了 3 上帝学习了万有引力定律。虽然结果是，我们都知道万有引力定律。然而，我不能使用我的。 3 上帝，去取笑牛顿 30 年。

因此，David 这一“蒸馏”控告，还是挺重的。

所以，亲爱的读者朋友们，你们相信吗？ DeepSeek 蒸馏了 ChatGPT 模型吗？

我真的不知道。但愿没有。因为如果有的话，那么这篇文章前面所有的文字，也许有些是白写的。

假如真的没有，DeepSeek，但愿你能起诉 David。要求法院罚他赔偿 1 美元。加继续在小红书上道歉 30 天。

这种诽谤，太欺负人了。

曼哈顿计划 2.0

DeepSeek 这个火，为什么会烧坏硅谷？

用游戏科学的创始人冯邈的话来说：这是一个“国运级”的机会。

为什麽？因为 AI 这种技术并非一般技术。它是一种可以改变大多数其它技术的技术。

哪个国家可以率先实现通用人工智能？（AGI），也许谁能率先处理材料科学问题(武器更先进)、蛋白质问题(医疗更先进)、可控核聚变问题(能源更先进)等诸多问题。

那就是为什么，美国人把它放在一边。 AI 被称为曼哈顿计划 2.0。

上个世纪，美国人发誓要比德国人先开发核弹。这个计划叫做人工计划:曼哈顿计划。现在，他们必须比中国人先实现通用人工智能。甚至不惜一切代价封锁它。

嘿。关于这个问题。一起发展不好吗？是否必须封锁中国？

我问了这个问题 AI。

中国的 DeepSeek 给我的答案是：

没有。技术竞争产生了双赢，封锁了反噬创新生态。

说得真好。

而美国的 ChatGPT 给我的答案是：

没有。但是，出于竞争和安全考虑，美国可能会选择一些领域来封锁，以确保技术优势。

嗯。真的是美国的 GPT。

* 个人观点，仅供参考。作者 / 刘润编辑 / 二蔓版面 / 黄静

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

打造“最天津”活力文化街区

一觉醒来，山东一道名菜就被全网盯上了！网民：当地人出来解释一下

快船4换2正式实现！两年了，终于送走了。

票房已经突破25亿，导演回应“啃老”三年

网球“学困生”创业：不想赚快钱的体育馆老板｜小城创客

项目推荐

梯影传媒

AI云印侠

宾果智能