DeepSeek启示录:优秀的计划不能被计划
The following article is from 数字力场 Author 佘宗明
作者 | 佘宗明
来源 | 管理智慧
咨询合作 | 13699120588
本文仅代表作者自己的观点。
正如梁文锋所说:「创新是自己创造的,不是刻意安排的。」
「国运科技突破」「斯普特尼克在美国的时刻」「AI 珍珠港事件」…… DeepSeek 掀起的「最炫民族 AI 风」,没有停止的迹象。
美国方面对 DeepSeek 以国防安全调查名义进行「猎巫」,又为其舆论热火上浇油。
看起来,DeepSeek 才是「春节档」最大赢家:成立仅 1 年半的 DeepSeek 在无声的地方酿造了雷声,堪比成了雷声。「魔童闹海」;降龙十八掌直接击败纳斯达克。 DeepSeek 提振中国人民的信心,不为?「侠之大者」;掀起 AI 领域「算率起义」的 DeepSeek 改写了 AI 权力游戏规则,配得上被「封神」。
正因为如此,在国内外舆论场,DeepSeek 几乎被各种各样的震惊包围着。
▲《黑神话 · 《悟空》的制片人冯邈将 DeepSeek-R1 看看国运级别的科研成果。
宏大的叙事框架下,DeepSeek 突如其来的突然崛起,很容易被用来突破美国对华为的封锁。「争气机」5G 手机华为 Mate60 Pro 而且,与大国科技崛起的言语绑定。
芯片法案和 TikTok 剥离法已经成为当前中美科技竞赛强度的直观体现,这种解读是不可避免的。
但是不能因此而扼杀 DeepSeek 奇迹中「去 Nationalism」部分,要看,DeepSeek 可以变成现在的 DeepSeek,这与梁文锋的极致技术理想主义等诸多具体因素有关, DeepSeek 反经验主义用于人才使用。
也正是 DeepSeek 身体的多重独特性,使其能像荆棘花一样不畏寒风,在干涸的土地上绽放。
对我来说,如果要用一句话来总结。 DeepSeek 启示录的本质,即:杰出不能计划。
「优秀的人不能被计划」,不言而喻,不要试图设计和规划一切,许多事情本来就是这样,「无心插柳」的结果。
在 9 几个月前,许多人对中国印象深刻。 AI 头部玩家,还是以 BAT 以字节为代表的大厂和 AI 六小虎大模型(智谱) AI、月亮的暗面,百川智能,MiniMax、阶跃星辰,零一万物)。
都没想到,「名罕见经传」的 DeepSeek 能够揭穿性价比的天花板,证实「明明是主流玩家的电影,我却偏偏要有名字。」呢?
在 1 一个多月前,许多人认识到了。 OpenAI 在硅谷-红杉资本之前,挑战者仍然认为,现在, AI 领域是五强争雄:微软 OpenAI,亚马逊 Antropic,谷歌,Meta 和 xAI。
都没想到,DeepSeek 能用 OpenAI 仅约 1/10 预训练费用,推出了性能可和性能 GPT-4o、Claude 3.5 Sonnet 等待顶级闭源模型的匹配 DeepSeek-V3 呢?
在 10 很多天前,有些人仍然认为,DeepSeek-V3 只是昙花一现,连 DeepSeek 复制起来非常困难 DeepSeek。
都没想到,DeepSeek 又拿出了成本仍然便宜,性能更强的东西。 DeepSeek-R1(性能可以比较 OpenAI o1 正式版,API 服务定价略低 27-55 倍数),直接震惊欧美科技界?
▲ DeepSeek-R1 在美股地震后,引起了国内外媒体的高度关注。
事实上,就在那里 DeepSeek-V3 在发布的时候,还是会有国内专家。 Deepseek 看作小米 Su7,「外观、单层、民用级刹车卡钳、隔音大致相似...虽然在赛道上跑两圈刹车会严重衰减,虽然里里外外都是蔚小理玩过的物品,但技术和形态都没有突破。」一些海外人士认为 DeepSeek 尽管拿出了「30 美金 iPhone」,但是那只是一个平替。
但 DeepSeek-R1 用特朗普震惊,山姆 · 奥特曼佩服,马斯克「内涵」反应证明,它的确不是池子里的东西。
现在,很多国内网友似乎都用满屏惊叹摆成了四郎的表情包:你还有多少惊喜是我不知道的?
「优秀的人不能被计划」,还因为,很多「杰出」一开始的事情可能是这样「细微」的。
DeepSeek 能否承载起来「国运级成果」名字,也许还有争议,但它的确是值得的。「神奇」二字。
DeepSeek-R1 到底厉害在哪里?懂技术的人可能会张口就是一堆名词:生成数据、知识蒸馏、FP8。 精度低,模型稀疏,MoE、双注意力机制…
这并不一定是第一个技术, DeepSeek 能够运用现有的技术,实现训练量效比、算率能效比的极致提高,也是一个突破。
都说「有多少辆马车加起来,都加不出一辆车。」最初是乔布斯发明的 iPhone,并非叠加在功能机上 MP3、相机等功能,而是用触摸屏感受。 软件和硬件的整合重新定义了手机。DeepSeek 难得的一点也在于「重新定义」——它打破了路径依赖,重新定义了提高算率的方法。
有些人这样描述:如果把提高算率当作盖楼, OpenAI 就是狂堆砖(芯片硬件),DeepSeek 就是依靠发明混凝土结构(数学框架创新)来重建建筑方法。
OpenAI 使得大模型研发成为一场比谁砖多的比赛,DeepSeek 然后把大模型研发变成了比谁更有效的建筑方式。 PK。
▲有些网民这样调侃 OpenAI 跟 DeepSeek 的差别。
DeepSeek 只是个 200 很多企业可以利用算法优化,威胁工程能力优势。「发明」出算率倍增器,做了很多国内外大厂都没有做过的事情,这不免让人想起凯文 · 凯利在《5000 《天后世界》中的那句话——「未来最成功的公司,一定是今天还默默无闻的一家小企业,在社交媒体领域之外。」
小就是大。当大公司的成功经验成为他们的束缚时,创业公司可以展现出更多的创新势能,以好奇心驱动创新动能,平整无层次的组织架构。
DeepSeek 就是典型。AI 创业者的高强度活力与梁文锋的高维认知相结合,产生了令人惊叹的化学变化。
梁文锋对 AGI(通用人工智能)的技术信念,中美 AI 差距本质是「原创性和模仿性差值」清醒的洞察,对「环城河闭源是短暂的,OpenAI 闭源也无法阻止被赶超。」前瞻性的判断,本来就体现了高于行业的思维能力。
DeepSeek 采用无级灵活合作机制,重潜力、好奇心、不注重工作经验的招聘标准,开源生态战略都与此有关,也放大了其势能。
因此,DeepSeek 能在朱啸虎式判断受到高度赞扬的当下,确定「不要做应用,专注于大模型研究」长期主义战略,可以在 OpenAI 在路线大行其道的前提下,拥抱更高效、更开放 AI 发展道路。
为什么是 DeepSeek?有些答案就藏在里面。
「优秀的人不能被计划」,也就是说,那些随机性和独特性不应该被忽视。
业内专家杨宽老师便说:当 OpenAI 当你沉迷于暴力堆积时,DeepSeek 团队在玩「俄罗斯方块的算率」——把每个 CUDA 在硬件利用率方面,将核心价值榨取到小数点后四位,硅谷应用 GPU 实现了集团通信消耗技术 30%-40%,DeepSeek 则利用自研 MoE 实现了动态路由算法 78%,「它不是技术差距,而是工程思维的跨代辗压。」
它的背后是分不开的 DeepSeek 团队提出的 MLA 通过结构创新,将显存占用降至传统方法。 5%-13%。这背后是一位年轻研究员突如其来的灵感和心血来潮。
他还说,梁文锋注入了量化交易思维。 AI 训练中:风险对冲(利用多模态数据构建「资产配置」)、高频调参(行业标准) 72 小时 / 每次,每次 2 每小时增加一次超参数)、动态性止损(低效训练支部自动停止)「华尔街炼金术」促使 DeepSeek 每一次训练都像是在玩“文明” 第六,科技树速通。
很容易让人想到肯尼斯。 · 斯坦利和乔尔 · 雷曼在《为什么伟大不能计划》中举了一个例子:发明飞机的莱特兄弟其实是最早的自行车制造商;真空管是早期计算机的基础部件,但真空管的出现与计算机无关...
梁文锋从量化交易开始,创造了一个「心价比」极强的 AI 大型模型,又为它增加了一个案例。
▲被许多歪果仁称为「神秘的东方力量」的 DeepSeek,发展路线有其独特之处。
DeepSeek 被人津津乐道,还有其开源方式: OpenAI 偏离初心变成 CloseAI 的背景下,DeepSeek 变成了真正 Open 的 AI;在 OpenAI 把开发者当「数字佃农」时,DeepSeek 启动开源协议「AI 土地改革」……那也是它的伟大之处。
这个问题也与梁文锋的技术理想主义气质密切相关。换一个人,也许又是师山姆 · 奥特曼长技以制竞争者的玩法。
梁文锋说:「创新是自己创造的,不是刻意安排的。」
相当于拍了肯尼斯的照片。 · 斯坦利,并向他们表示认可。因为肯尼斯 · 斯坦利说:真正的伟大是无法计划的,跟随好奇心一步一步走,才是成就非凡的正确途径。
「优秀的人不能被计划」,所以那些看起来很小的种子,也许也可以「给花,伸出刚长的枝条」;探索边缘地带、外围地区、隐蔽角落的人,或许也可以「小力出奇迹」。
跟国外的 GAFA(亚马逊,谷歌苹果脸书)和英伟达,国内 BAT 一样,DeepSeek 并非计划,而是在适当的土壤中生长。
既然创新是激发好奇心、激活创造力、摆脱路径依赖的产物,而不是计划的结果,那么创新应有的关怀和激励就不应该回归路径依赖,而应该为那些好奇心和创造力提供良好的制度环境,包括宽容的氛围和试错的空间。
就目前看,DeepSeek 走红之后,舆论场上的一些反应值得警惕,其中的一些反应,更进一步通向的是那种对待。「计划」路径依赖。具体而言,包括:
一,将 DeepSeek 的突破导入 Nationalism 在语境中,感觉要把它当作一种语境。「AI 国家队」来加以收归,大力支持。
「自创生」的 DeepSeek,只要适合创新的气候土壤,就不需要苗苗助长。
如果你仔细观察,你会发现黑神话。 · 从悟空到宇树科技的机器狗再到 DeepSeek 在 StyleCtrl 该类别中排名第一的大型模型,都诞生于杭州。
那不是偶然的。一般来说,市场底色足够。 - 民营企业多 - 创新氛围浓 - 经济活力足 - 发展机遇广 - 成为未来科技中心的可能性很大,是一体的。
如果你尊重市场,鼓励创新,拥抱开放,宽容失败,培养适合创新的市场生态,可能会有更多的公司——包括中小型民营企业,比如 DeepSeek 同样冒出来。
但那些以关怀为名的干涉,以责任为由驱使,可能会抑制他们的活力。
二,以「干燥硅谷,单挑华尔街」的「伟大,我的 DS」态度,把它推向大时代的漩涡。
继续升级美国对华 AI 在芯片限制的背景下,DeepSeek 使用华为芯片,中国本地 AI 人才和更低的算率成本开发了一个性能领先的大模型,激发民族自信和荣誉感是正常的,被寄托打破脖子局面的厚望也是正常的。
但是这个不应该是正确的 DeepSeek 无意识的捧杀,更不应该通向对方「脱钩断线论」内应外合。
把 DeepSeek 的突破看作「国运级」是的,个里扬眉吐气的心态可以理解,饶就是这样,也应该尽量避免把企业和企业「干倒」「单挑」这种类型的字眼关联,否则很可能会迎合外界的那些。「×× 威胁论」,将其无形中推向目标位置。
▲ DeepSeek 目前正被美国方面以国防安全调查为名「猎巫」。
常说,我们不应该在大的时候说。「妄自菲薄」和「妄自尊大」两极之间横跳。
在技术格局方面,《暗知识》作者王维嘉认为,尽管 DeepSeek 结果缩小了中美在人工智能技术上的差距,但是中美人工智能的整体格局并没有动摇。
他感觉,「在人工智能技术的几个关键方面,中国在芯片领域与美国仍有较大差距;在算法突破方面,在过去的十年里, 2012 年 alexnet 到 2017 年 transformer,再到 2022 年 ChatGPT 以及后续的思维链,RAG 以及推理训练等重大进展,大部分发生在美国,法国的 Mistral 同时,企业也有少量的贡献,DeepSeek 贡献比例约为 5%,但是这已经很了不起了。」
下一步,我们需要很多。 DeepSeek 出来缩小差距,而不是杀人。 DeepSeek 中间灭火源。
说到底,DeepSeek 胜利,是《为什么伟大不能被计划》中那一观点的最佳注释。——「在实践未知领域的过程中,对有趣的事情保持开放。搜索到足够数量的踏脚石后,伟大的成就自然会出乎我们的意料。」
DeepSeek 迈出了 AI 发展历史上的重要一步,不可避免地被置于未来大国博弈、科技竞争的框架之下。
但是不管怎样,别忘了——
DeepSeek 创新并非计划性的,DeepSeek 看到创新之后就不需要了。「计划」来驱使。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




