DeepSeek启示录：优秀的计划不能被计划

2025-02-06

The following article is from 数字力场 Author 佘宗明

作者 | 佘宗明

来源 | 管理智慧

咨询合作 | 13699120588

本文仅代表作者自己的观点。

正如梁文锋所说：「创新是自己创造的，不是刻意安排的。」

「国运科技突破」「斯普特尼克在美国的时刻」「AI 珍珠港事件」…… DeepSeek 掀起的「最炫民族 AI 风」，没有停止的迹象。

美国方面对 DeepSeek 以国防安全调查名义进行「猎巫」，又为其舆论热火上浇油。

看起来，DeepSeek 才是「春节档」最大赢家：成立仅 1 年半的 DeepSeek 在无声的地方酿造了雷声，堪比成了雷声。「魔童闹海」；降龙十八掌直接击败纳斯达克。 DeepSeek 提振中国人民的信心，不为？「侠之大者」；掀起 AI 领域「算率起义」的 DeepSeek 改写了 AI 权力游戏规则，配得上被「封神」。

正因为如此，在国内外舆论场，DeepSeek 几乎被各种各样的震惊包围着。

▲《黑神话 · 《悟空》的制片人冯邈将 DeepSeek-R1 看看国运级别的科研成果。

宏大的叙事框架下，DeepSeek 突如其来的突然崛起，很容易被用来突破美国对华为的封锁。「争气机」5G 手机华为 Mate60 Pro 而且，与大国科技崛起的言语绑定。

芯片法案和 TikTok 剥离法已经成为当前中美科技竞赛强度的直观体现，这种解读是不可避免的。

但是不能因此而扼杀 DeepSeek 奇迹中「去 Nationalism」部分，要看，DeepSeek 可以变成现在的 DeepSeek，这与梁文锋的极致技术理想主义等诸多具体因素有关， DeepSeek 反经验主义用于人才使用。

也正是 DeepSeek 身体的多重独特性，使其能像荆棘花一样不畏寒风，在干涸的土地上绽放。

对我来说，如果要用一句话来总结。 DeepSeek 启示录的本质，即：杰出不能计划。

「优秀的人不能被计划」，不言而喻，不要试图设计和规划一切，许多事情本来就是这样，「无心插柳」的结果。

在 9 几个月前，许多人对中国印象深刻。 AI 头部玩家，还是以 BAT 以字节为代表的大厂和 AI 六小虎大模型(智谱) AI、月亮的暗面，百川智能，MiniMax、阶跃星辰，零一万物)。

都没想到，「名罕见经传」的 DeepSeek 能够揭穿性价比的天花板，证实「明明是主流玩家的电影，我却偏偏要有名字。」呢？

在 1 一个多月前，许多人认识到了。 OpenAI 在硅谷-红杉资本之前，挑战者仍然认为，现在， AI 领域是五强争雄：微软 OpenAI，亚马逊 Antropic，谷歌，Meta 和 xAI。

都没想到，DeepSeek 能用 OpenAI 仅约 1/10 预训练费用，推出了性能可和性能 GPT-4o、Claude 3.5 Sonnet 等待顶级闭源模型的匹配 DeepSeek-V3 呢？

在 10 很多天前，有些人仍然认为，DeepSeek-V3 只是昙花一现，连 DeepSeek 复制起来非常困难 DeepSeek。

都没想到，DeepSeek 又拿出了成本仍然便宜，性能更强的东西。 DeepSeek-R1(性能可以比较 OpenAI o1 正式版，API 服务定价略低 27-55 倍数)，直接震惊欧美科技界？

▲ DeepSeek-R1 在美股地震后，引起了国内外媒体的高度关注。

事实上，就在那里 DeepSeek-V3 在发布的时候，还是会有国内专家。 Deepseek 看作小米 Su7，「外观、单层、民用级刹车卡钳、隔音大致相似...虽然在赛道上跑两圈刹车会严重衰减，虽然里里外外都是蔚小理玩过的物品，但技术和形态都没有突破。」一些海外人士认为 DeepSeek 尽管拿出了「30 美金 iPhone」，但是那只是一个平替。

但 DeepSeek-R1 用特朗普震惊，山姆 · 奥特曼佩服，马斯克「内涵」反应证明，它的确不是池子里的东西。

现在，很多国内网友似乎都用满屏惊叹摆成了四郎的表情包：你还有多少惊喜是我不知道的？

「优秀的人不能被计划」，还因为，很多「杰出」一开始的事情可能是这样「细微」的。

DeepSeek 能否承载起来「国运级成果」名字，也许还有争议，但它的确是值得的。「神奇」二字。

DeepSeek-R1 到底厉害在哪里？懂技术的人可能会张口就是一堆名词:生成数据、知识蒸馏、FP8。精度低，模型稀疏，MoE、双注意力机制…

这并不一定是第一个技术， DeepSeek 能够运用现有的技术，实现训练量效比、算率能效比的极致提高，也是一个突破。

都说「有多少辆马车加起来，都加不出一辆车。」最初是乔布斯发明的 iPhone，并非叠加在功能机上 MP3、相机等功能，而是用触摸屏感受。软件和硬件的整合重新定义了手机。DeepSeek 难得的一点也在于「重新定义」——它打破了路径依赖，重新定义了提高算率的方法。

有些人这样描述：如果把提高算率当作盖楼， OpenAI 就是狂堆砖(芯片硬件)，DeepSeek 就是依靠发明混凝土结构(数学框架创新)来重建建筑方法。

OpenAI 使得大模型研发成为一场比谁砖多的比赛，DeepSeek 然后把大模型研发变成了比谁更有效的建筑方式。 PK。

▲有些网民这样调侃 OpenAI 跟 DeepSeek 的差别。

DeepSeek 只是个 200 很多企业可以利用算法优化，威胁工程能力优势。「发明」出算率倍增器，做了很多国内外大厂都没有做过的事情，这不免让人想起凯文 · 凯利在《5000 《天后世界》中的那句话——「未来最成功的公司，一定是今天还默默无闻的一家小企业，在社交媒体领域之外。」

小就是大。当大公司的成功经验成为他们的束缚时，创业公司可以展现出更多的创新势能，以好奇心驱动创新动能，平整无层次的组织架构。

DeepSeek 就是典型。AI 创业者的高强度活力与梁文锋的高维认知相结合，产生了令人惊叹的化学变化。

梁文锋对 AGI(通用人工智能)的技术信念，中美 AI 差距本质是「原创性和模仿性差值」清醒的洞察，对「环城河闭源是短暂的，OpenAI 闭源也无法阻止被赶超。」前瞻性的判断，本来就体现了高于行业的思维能力。

DeepSeek 采用无级灵活合作机制，重潜力、好奇心、不注重工作经验的招聘标准，开源生态战略都与此有关，也放大了其势能。

因此，DeepSeek 能在朱啸虎式判断受到高度赞扬的当下，确定「不要做应用，专注于大模型研究」长期主义战略，可以在 OpenAI 在路线大行其道的前提下，拥抱更高效、更开放 AI 发展道路。

为什么是 DeepSeek？有些答案就藏在里面。

「优秀的人不能被计划」，也就是说，那些随机性和独特性不应该被忽视。

业内专家杨宽老师便说：当 OpenAI 当你沉迷于暴力堆积时，DeepSeek 团队在玩「俄罗斯方块的算率」——把每个 CUDA 在硬件利用率方面，将核心价值榨取到小数点后四位，硅谷应用 GPU 实现了集团通信消耗技术 30%-40%，DeepSeek 则利用自研 MoE 实现了动态路由算法 78%，「它不是技术差距，而是工程思维的跨代辗压。」

它的背后是分不开的 DeepSeek 团队提出的 MLA 通过结构创新，将显存占用降至传统方法。 5%-13%。这背后是一位年轻研究员突如其来的灵感和心血来潮。

他还说，梁文锋注入了量化交易思维。 AI 训练中：风险对冲(利用多模态数据构建「资产配置」）、高频调参(行业标准) 72 小时 / 每次，每次 2 每小时增加一次超参数)、动态性止损(低效训练支部自动停止)「华尔街炼金术」促使 DeepSeek 每一次训练都像是在玩“文明” 第六，科技树速通。

很容易让人想到肯尼斯。 · 斯坦利和乔尔 · 雷曼在《为什么伟大不能计划》中举了一个例子:发明飞机的莱特兄弟其实是最早的自行车制造商；真空管是早期计算机的基础部件，但真空管的出现与计算机无关...

梁文锋从量化交易开始，创造了一个「心价比」极强的 AI 大型模型，又为它增加了一个案例。

▲被许多歪果仁称为「神秘的东方力量」的 DeepSeek，发展路线有其独特之处。

DeepSeek 被人津津乐道，还有其开源方式： OpenAI 偏离初心变成 CloseAI 的背景下，DeepSeek 变成了真正 Open 的 AI；在 OpenAI 把开发者当「数字佃农」时，DeepSeek 启动开源协议「AI 土地改革」……那也是它的伟大之处。

这个问题也与梁文锋的技术理想主义气质密切相关。换一个人，也许又是师山姆 · 奥特曼长技以制竞争者的玩法。

梁文锋说：「创新是自己创造的，不是刻意安排的。」

相当于拍了肯尼斯的照片。 · 斯坦利，并向他们表示认可。因为肯尼斯 · 斯坦利说：真正的伟大是无法计划的，跟随好奇心一步一步走，才是成就非凡的正确途径。

「优秀的人不能被计划」，所以那些看起来很小的种子，也许也可以「给花，伸出刚长的枝条」；探索边缘地带、外围地区、隐蔽角落的人，或许也可以「小力出奇迹」。

跟国外的 GAFA(亚马逊，谷歌苹果脸书)和英伟达，国内 BAT 一样，DeepSeek 并非计划，而是在适当的土壤中生长。

既然创新是激发好奇心、激活创造力、摆脱路径依赖的产物，而不是计划的结果，那么创新应有的关怀和激励就不应该回归路径依赖，而应该为那些好奇心和创造力提供良好的制度环境，包括宽容的氛围和试错的空间。

就目前看，DeepSeek 走红之后，舆论场上的一些反应值得警惕，其中的一些反应，更进一步通向的是那种对待。「计划」路径依赖。具体而言，包括：

一，将 DeepSeek 的突破导入 Nationalism 在语境中，感觉要把它当作一种语境。「AI 国家队」来加以收归，大力支持。

「自创生」的 DeepSeek，只要适合创新的气候土壤，就不需要苗苗助长。

如果你仔细观察，你会发现黑神话。 · 从悟空到宇树科技的机器狗再到 DeepSeek 在 StyleCtrl 该类别中排名第一的大型模型，都诞生于杭州。

那不是偶然的。一般来说，市场底色足够。 - 民营企业多 - 创新氛围浓 - 经济活力足 - 发展机遇广 - 成为未来科技中心的可能性很大，是一体的。

如果你尊重市场，鼓励创新，拥抱开放，宽容失败，培养适合创新的市场生态，可能会有更多的公司——包括中小型民营企业，比如 DeepSeek 同样冒出来。

但那些以关怀为名的干涉，以责任为由驱使，可能会抑制他们的活力。

二，以「干燥硅谷，单挑华尔街」的「伟大，我的 DS」态度，把它推向大时代的漩涡。

继续升级美国对华 AI 在芯片限制的背景下，DeepSeek 使用华为芯片，中国本地 AI 人才和更低的算率成本开发了一个性能领先的大模型，激发民族自信和荣誉感是正常的，被寄托打破脖子局面的厚望也是正常的。

但是这个不应该是正确的 DeepSeek 无意识的捧杀，更不应该通向对方「脱钩断线论」内应外合。

把 DeepSeek 的突破看作「国运级」是的，个里扬眉吐气的心态可以理解，饶就是这样，也应该尽量避免把企业和企业「干倒」「单挑」这种类型的字眼关联，否则很可能会迎合外界的那些。「×× 威胁论」，将其无形中推向目标位置。

▲ DeepSeek 目前正被美国方面以国防安全调查为名「猎巫」。

常说，我们不应该在大的时候说。「妄自菲薄」和「妄自尊大」两极之间横跳。

在技术格局方面，《暗知识》作者王维嘉认为，尽管 DeepSeek 结果缩小了中美在人工智能技术上的差距，但是中美人工智能的整体格局并没有动摇。

他感觉，「在人工智能技术的几个关键方面，中国在芯片领域与美国仍有较大差距；在算法突破方面，在过去的十年里， 2012 年 alexnet 到 2017 年 transformer，再到 2022 年 ChatGPT 以及后续的思维链，RAG 以及推理训练等重大进展，大部分发生在美国，法国的 Mistral 同时，企业也有少量的贡献，DeepSeek 贡献比例约为 5%，但是这已经很了不起了。」

下一步，我们需要很多。 DeepSeek 出来缩小差距，而不是杀人。 DeepSeek 中间灭火源。

说到底，DeepSeek 胜利，是《为什么伟大不能被计划》中那一观点的最佳注释。——「在实践未知领域的过程中，对有趣的事情保持开放。搜索到足够数量的踏脚石后，伟大的成就自然会出乎我们的意料。」

DeepSeek 迈出了 AI 发展历史上的重要一步，不可避免地被置于未来大国博弈、科技竞争的框架之下。

但是不管怎样，别忘了——

DeepSeek 创新并非计划性的，DeepSeek 看到创新之后就不需要了。「计划」来驱使。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com