刘润:DeepSeek这把火,为什么会烧坏硅谷?

02-03 09:55

许多人在后台给我留言,让我讲讲。 DeepSeek。这个大春节。我想睡懒觉。然后看电影。然后睡懒觉。然后看电影。我什么都不想写。但是,DeepSeek 真是太火了。


火势达到什么程度?


几周内,美国的一场山林大火烧毁了加州。 2500 亿美金。而 DeepSeek 纳斯达克出现了暴跌 3%,瞬间烧掉 5000 十亿美元。什么概念?要是这样 5000 十亿美元换成百元美刀,用飞机运到焚烧厂烧,需要烧, 87 装满空客的架子 380。


美国人很害怕。


但是,DeepSeek 这个火,为什么会烧坏硅谷?DeepSeek,到底厉害在哪里?难道他被高估了吗?有人指责 DeepSeek “盗窃”,是真的吗?


今天。让我们谈谈这件事。从哪里开始?就从为什么美国人这么害怕开始。这种恐惧来自心中的一根刺。一根针不能碰,一碰就疼。


这个刺的名字叫:斯普特尼克时刻。


斯普特尼克时刻


1957 年 10 在这个月的一天,许多美国人走出家门,惊恐地看着天空。他们听说苏联人在地球周围发了一个“篮球”。以每小时的速度 29000 公里。她们试图用人眼来寻找这个“篮球”,它不停地在她们的头上转圈。


这个“篮球”的名字叫斯普特尼克(sputnik)。那肯定不是篮球。那是一颗人造卫星。


人类历史上第一颗人造卫星。


人类历史上第一颗人造卫星,“其实”并不是自己发射的。美国人很难接受。你能想象吗?就像连续三年全年第一,突然发现清华唯一提前录取的不是自己。


斯普特尼克号卫星,就像一根刺,伤害了那一代美国人。


随后,美国正式成立。 NASA(美国航天局),并以全国的力量完成登月。刚刚拔掉了心中那根叫做“斯普特尼克”的刺。


68 今天,年后,DeepSeek 让美国人看到另一个“斯普特尼克”时刻。


拼多多,大模型届


你试过 DeepSeek 了吗?


快点试试。挺好的。推理能力,直追。 OpenAI 的 ChatGPT o1。而且,不要越墙。不需要美国信用卡。不用担心,因为不小心被发现是中国客户,被系统“歧视”封号。太骄傲了。


但是这些都不是最重要的。最重要的是:DeepSeek 真是太太便宜了。


ChatGPT o1 完成一次训练的费用,据说要几亿美元。而且 DeepSeek,只需不到 600 万美元。


1/20。太便宜了,不敢相信。


就像有人指着一个 20 万的新能源汽车,说 1 一切都卖给你。便宜得令人难以置信。您忍不住问,这个只会唱:爸爸的爸爸是爷爷?


快速正确的美国科技界 DeepSeek 做了各种评价。然后,我很震惊。这个“大模型品多多”,真正的推理能力和推理能力。 ChatGPT o1 非常接近。


接着,英伟达股票大跌 17%。原来,训练一个模型并不需要像你说的那么多。 GPU 啊。DeepSeek,竟做了所有硅谷科技巨头都没有做到的事情。


那么,DeepSeek,到底是怎么做到的?


被“逼”了。被“年级第一”的“小院高墙”战略所逼。


小院高墙


2018 2000年,美国首次提出了对华科技的防御策略:小院高墙。“小院”(半导体、微电子、量子信息技术、人工智能等)。)与美国国家安全有关,“高墙”(出口管制、限制签证、审查投资等)建设在中国。).


随后,2022 2008年,美国开始禁止英伟达对中国高档出口。 GPU。这些 GPU,对训练 AI 大型模型尤为重要。


怎么了?做好朋友不行吗?不要做朋友,做生意也可以啊。公平交易,共谋发展。有必要这样隐瞒吗?


嘿。您不明白“年级第一”的态度。


上课时,倒数第一,倒数第二,一般都是好哥们。但正数第一,正数第二,基本上都是死敌。


我之前帮你做作业,是因为你后来进去了。我很高兴你取得了进步。但没想到,你不知道好歹,只帮了几天,你就想代替我的“年级第一”。怎么会这样?橡皮是我。GPU 还有我的。再也不借给你了。


那就是“年级第一”的态度。


那么我们该怎么办?就这样认输吗?没 GPU,怎么训练 AI 模型呢?


创新。


在资源无限的时候,不需要创新。真正的创新,都发生在缺乏的时候。


例如:混合专家系统。


混合专家系统


混合专家系统,即 Mixure of Experts。简称 MoE。


咱们去医院看病。医院的 50 每个医生都是最好的全科医生。内科、外科、儿科、心血管科、脑科甚至妇科。什么都懂,什么都能治好。当然,这是最好的。但是成本太高了。因为每个医生都可能 30 每年都可以毕业。


它就像一个大模型。一个模型, 50 一个博士学位,可以回答所有问题。这个当然好。但是真的太烧了。 GPU 了。


并且,GPU 都在美国的小院子里。我没有啊。怎么办?


也许你可以试试,把医院分成不同的科室。内科只在乎内科,外科只在乎外科。这样,“训练”医生的难度不就降低了吗?


用 50 一个便宜的专业医生,而不是一个昂贵的全科医生。然后,设置一个导诊台,根据病情将患者分配给不同的医生。问题解决不了吗?


那就是混合专家系统。


混合专家系统大大降低了专家系统 AI 练习费用。


强化学习


大型训练模型的另一个重要成本是人工标签。


这张照片是一只小狗。那张照片是一只小猫。如果标记清楚,人工智能就不会错。使用人工标签和监督 AI 学习过程。那就是“监督学习”(Supervised Learning)。


“监督学习”,为许多第三世界国家创造了大量的职位。所以有一句开玩笑的话:


有多少“人工”,就有多少“智能”。


那么,这个费用,能不能也省下来呢?


当孩子学会走路时,他们不会使用任何标记的照片。这个姿势是正确的,那个姿势是错误的。孩子们,按照照片上的姿势走。从来没有。


孩子是怎么走路的?就走吧。如果你摔倒了,你的屁股会痛。如果你稳定了,你妈妈会拥抱你。孩子会根据这种惩罚和奖励反馈自动调整姿势,突然走路,直到最后一刻。


那就是:加强学习。Reinforcement Learning。简称 RL。使用激励函数,而非标记数据,以便学习。从而大大降低训练成本。


MoE RL。


真的不容易。为什么美国人不先做?


这是因为他们不缺 GPU 啊。很多创新,都是“逼”出来的。


DeepSeek 还有一个特别之处,那就是:开源。


开源


还有一件很讽刺的事情。你们已经知道了。OpenAI,其实并不 Open。


你还不知道什么?那么听我跟你好好谈谈。


ChatGPT 2.0 之前,OpenAI 它是开源的。模型代码和权重,对所有人都是公开的。但是自从 ChatGPT 3.0 开始,OpenAI 选用闭源。” OpenAI "变为了" CloseAI "。


事实上,这是可以理解的。大型训练模型实在是太花钱了。渐渐地大家也开始接受:要想拥有高质量的模型,就必须选择闭源。


直到,DeepSeek R1 出现。并且开源。


但即使你的成本很低,也只有 OpenAI 的 1/20,也没必要开源吧?归根结底,你也要活下去啊?您开源,图片是什么?


图:生态。


我只有 200 一个工程师。即使他们都毕业于浙江大学、北京大学和清华大学,也只有 200 个人。微软、谷歌、谷歌、OpenAI 比。


那么怎么办?整个开发者生态的团结。


我将向全世界免费披露所有的研究成果、模型代码和权重。这样会吸引大量的开发者来使用我的模型,检测我的模型,改进我的模型。


代码很重要。但是生态学更重要。


用代码换取整个生态的支持,也许是抵抗巨人的唯一途径。


明白了。但你是如何生活下去的呢?


别担心。大型开源模型,也可以赚钱。


开源也可以赚钱


大型开源模型,至少有三种赚钱方式。


首先是“双代码方式”。


免费开放的基本代码。这对大多数人来说已经足够了。但对于一些大企业来说,他们希望设置一些权限、分类管理等各种“高级能力”可以收费。


二是“保险费方式”。


如果是代码,就会出现问题。大型企业对服务的稳定性和响应的及时性有很高的要求。因此,大企业很可能会购买“保险”服务,以确保有人会处理问题。


三是“云服务模式”。


对于中小企业和个人来说,可以像用水用电一样直接调用。 DeepSeek 的 API,使用 DeepSeek 云“智能资源”,然后按“度”(百万” token)付费。


无论是开源还是闭源。只需创造价值,就可以赚钱。所以,不必为此。 DeepSeek 担忧。


而且不用担心英伟达。


杰文斯谬论


DeepSeek 这个“大模型的拼多多”问世了。当天,英伟达股票暴跌 17%。投资者担心人们不再需要那么多。 GPU 了。


事实上,每个人都不必太担心。给你讲个故事。


1776 2008年,瓦特对蒸汽机进行了改进。与老式蒸汽机相比,瓦特蒸汽机节约 2/3 煤炭。所以人们欢呼:煤炭的消耗,将从此大大降低。


但是实际情况,恰恰相反。英国经济学家杰文斯发现,蒸汽机的效率提高了 10 与此同时,煤炭消耗不但没有减少,反而上升了。 100 倍。


为什么呢?


因为蒸汽机的效率提高了,以前买不起煤的人觉得自己买得起。于是一个接一个地建厂。工厂数量的急剧增加导致煤炭消耗的强烈反弹。


那就是著名的“杰文斯谬论”。


英伟达的显卡也是如此。


DeepSeek 大大提升了 GPU 使用效率。在短期内,这可能会导致 GPU 消费减少。但是随后,将会有更多的人加入模型训练阵营,从而导致显卡需求激增。


果不其然。愚蠢的纳斯达克,第二天就醒了。英伟达的股票回升了。 8%。


缓过神来之后,在一片赞叹中,也渐渐出现了各种各样的质疑和指责。


比如:蒸馏。


蒸馏


美国白宫顾问 David Sacks 明确表示,有“实质性证据”证实,中国 AI 企业 DeepSeek "蒸馏"(distill)了 OpenAI 模型。他把这种“蒸馏”行为比作“盗窃”。


嗯 …… 如果你赢不了,你会污蔑吗?“蒸馏”这一指控,非常严重啊。


先解释一下,什么叫“蒸馏”?


有两种模型。教师模型(teacher model),学生模型(student model)。同学们不停地向老师提问,并把“问题” - “写下答案”。然后用这些“问题” - 回答“数据,训练学生,进而使学生拥有与教师非常接近的知识和技能。它被称为:蒸馏。


那是蒸馏啊?不过,学生向老师学习,也没什么问题吧?


是啊。学习没有问题。但是,ChatGPT 用户协议中明确表示,我们不能使用我的模型来训练新模型,尤其是用于与我竞争的模型。换句话说,严禁蒸馏。使用 ChatGPT,就要遵循 ChatGPT 使用协议。那是诚信问题。


另外,牛顿花了 30 一年创造了万有引力定律。我花光了 3 上帝学习了万有引力定律。虽然结果是,我们都知道万有引力定律。然而,我不能使用我的。 3 上帝,去取笑牛顿 30 年。


因此,David 这一“蒸馏”控告,还是挺重的。


所以,亲爱的读者朋友们,你们相信吗? DeepSeek 蒸馏了 ChatGPT 模型吗?


我真的不知道。但愿没有。因为如果有的话,那么这篇文章前面所有的文字,也许有些是白写的。


假如真的没有,DeepSeek,但愿你能起诉 David。要求法院罚他赔偿 1 美元。加继续在小红书上道歉 30 天。


这种诽谤,太欺负人了。


曼哈顿计划 2.0


DeepSeek 这个火,为什么会烧坏硅谷?


用游戏科学的创始人冯邈的话来说:这是一个“国运级”的机会。


为什麽?因为 AI 这种技术并非一般技术。它是一种可以改变大多数其它技术的技术。


哪个国家可以率先实现通用人工智能?(AGI),也许谁能率先处理材料科学问题(武器更先进)、蛋白质问题(医疗更先进)、可控核聚变问题(能源更先进)等诸多问题。


那就是为什么,美国人把它放在一边。 AI 被称为曼哈顿计划 2.0。


上个世纪,美国人发誓要比德国人先开发核弹。这个计划叫做人工计划:曼哈顿计划。现在,他们必须比中国人先实现通用人工智能。甚至不惜一切代价封锁它。


嘿。关于这个问题。一起发展不好吗?是否必须封锁中国?


我问了这个问题 AI。


中国的 DeepSeek 给我的答案是:


没有。技术竞争产生了双赢,封锁了反噬创新生态。


说得真好。


而美国的 ChatGPT 给我的答案是:


没有。但是,出于竞争和安全考虑,美国可能会选择一些领域来封锁,以确保技术优势。


嗯。真的是美国的 GPT。


* 个人观点,仅供参考。作者 / 刘润 编辑 / 二蔓 版面 / 黄静


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com