Deepseek技术外卷:中国AI的二次进化
文:吴炳见
Deepseek开了个好头,改变了卷子的方向,中国AI正在进入技术卷子。。大模型玩家开始开源、发论文、提供代码,分享核心方法,这是一种进化。这篇论文就像一堵墙。只有人多了,砖才能多。量变会带来质的变化——也就是启发性的创新。我不会惊讶有一天会卷出下一个Transformer。
这片中国的土地,从来没有卷过,一卷惊人。在过去的二十年里,卷已经成为惯性。
移动互联网的平台机会基本上有三个因素。第一,融资规模,弹药多,火力大。第二,增长,快速占领市场,突破网络效应的及格线。第三,运营效率,一块钱能花两块钱还是两毛钱,决定了能不能长久。过去的百团大战、出租车对决、外卖大战、电商大战都在卷起这三个要素,能赢的都是国王。
另一条走向极致的路是硬件、功能密度和成本效率。理想汽车首先使用冰箱彩电沙发,然后所有员工都效仿,这已经成为中国新能源汽车的标准。小米su7 Ultra将高档跑车的价格定位为52.9万,BYD用刀片电池和自研重构成本曲线。在高韧性竞争下,中国手机卷出小米、华为、vivo、oppo,BYD是中国汽车卷出来的、一群选手,比如小米,蔚小理。
它揭示了中国式竞争的底层逻辑——在有限的成本内最大化功能密度。
能够在中国式竞争中获胜的卷王,到海外也可以重用这种方法,这就是Tiktok。、Temu的故事,也是中国新能源汽车的故事。
20年来,中国式竞争卷,在AI浪潮下,能否尝试另一种卷法?
在采访中,梁文锋说了一句话“之后,会有越来越多的硬核创新。现在可能不容易理解,因为整个社会需要事实教育。当这个社会让硬核创新的人事业有成时,集体思想就会发生变化。我们只需要一堆事实和一个过程。”
没想到事实和过程来得这么快,Deepseek破圈后,社会确实受到了事实的教育,大家开始卷技术实力——如何改进Attention,如何提高MoE,如何进行FP8和FP16混合训练。更进一步,就是卷起原来的水平——谁能创新下一代模型结构,谁能找到下一套训练模型的方法。
在过去的两年里,大模型公司同时卷入了三件事:模型能力、融资能力和用户数量。在模型能力方面,谁能率先复制? GPT3.5、GPT4 和 o1,在同样重现的情况下,谁的跑分更高。
融资规模代表GPU总数和团队质量。用户数量是因为大多数企业家和投资者都有移动互联网的思维定势,认为用户数量可以带来数据飞轮,用户数量可以改变竞争力,用户数量可以改变融资。
DS的爆红打破了这一惯性,行业共识开始转向:不要卷入非核心因素,大家一起卷模能力,探索模型能力的天花板,以及模型成本的地板。。众所周知,模型的三个要素是计算率、算法和数据。当计算率有限,大部分数据都是公开的时候,我们可以从算法创新中探索新的项目,我们也知道开源是一个非常放大的工具,可以提高N倍的人气。
所以你可以看到,从今年开始, 1 从月份开始,开始卷开源并发送paper。Text-01和VL-01,DS和DS,MiniMax开源了两种模型。 kimi 同时发布 R1 和K1.5 的 tech report,所有的写作都是如何重现o1推理模型。近来又在同一时间发布了注意机制优化。 paper,DS的Native Sparse Attention,kimi的Mixture of Block Attention,MiniMaxLighting Attention。这个只是技术卷的序幕。
媒体上也有更多关于技术创新的报道。在小宇宙中,晚点和张小珺连续几集带观众阅读论文,第一期解读推理模型。 R1 和 k1.5.第一阶段解读注意力机制的改进,是为了做李沐先生的工作。要知道,读论文是一项非常少数的专业活动,现在已经成为一种流行的科普——“让我试着用人类的话来告诉你他们创新了什么”。

见微知,这说明观念发生了变化,大众开始关注底层创新,企业也更愿意分享自己压箱底部的家伙。。也许有些公司还在衡量是否开源,但种子已经种下了。开源浪潮只是时间问题。至于什么时候加开源,开源模型的权重还是开源代码,哪些适合发行? 什么不适合paper,只是一个数字问题,more or less。
市场开始专注于技术创新,把各行各业的好想法卷入其中,从小到大,从方法上孕育下一个突破,这就是Deepseek带来的变化。
这是一种外卷,不是内卷。内卷的根源是同质化,蛋糕大小明确。我们在同一件事上花钱。第二天你刚做的功能创新,对手就抄了。没办法。我们只能争取运营效率和成本,提高及格线。如果对手过不了及格线,就会被杀,赢家会吃掉市场。
什么是外卷?我们在基础创新上下了很大功夫,导出了方法论,整体拉高了行业水位,一起把蛋糕做大。目的不是为了杀死任何人,而是为了竞争下一个创新点。DS主动披露“堡垒” 把paper和代码放在桌面上,每个人都可以随意使用,先切断自己的退路,强迫自己爬上更高的山,做出更多的创新。
AI 这个行业还处于起步阶段,在研发变化期,应该种下一颗外卷种子。
卷子很无聊,在明确的游戏规则中,新公司很难刚刚超过卷王。。字节是移动互联网最大的卷王之一。在过去两年的AI中,他仍然是卷王。以此为例。 以chatbot为例,豆包是一个全方位的卷,把chatbot分成新老游戏。
新游戏是一种训练模式。新老公司几乎同时出发。如果基本模型不够好,他们会吸引优秀的研究人员训练模型。老游戏是移动互联网的方式。豆包每月投入超过1亿元,创业公司很难跟上不和谐。如果商品不够好,那么应用程序、PC 用户端与网页三端一起迭代。快速迭代,大力创造奇迹,老药方果然有效。
张一鸣几乎成了“AI事业部总经理”,决定了业务质量还是一号位的认知。当我们使用创业项目时,我们会听到一些研究人员谈论张一鸣和他聊了多久。这说明张一鸣在一线了解技术,面试候选人,不断训练自己。
企业经营价值=行业价值 x 团队执行效率。今日,AI 应用创业者面临着残酷的现实,字节会尝试进入很多方向,淘汰所有执行效率不好的团队,不管你有没有遇到大运会,选择一个好的行业。
在过去的几年里,AI应用了四个有一定体量的pmf,字节都干了。
第一个是 chatbot,字节制作豆包。在DS破圈之前,用户数量是国内第一。
第二个是 Role paly,也就是说,Character.ai 变形体,字节做了一个猫箱,猫箱里有各种经过验证的role。 paly的玩法,用feed流向您推荐玩法。
三是文生图片和文生视频,即各行各业。 Midjourney和Sora的变形体,豆包里有自己的文生图功能,视频模型有即梦。
第四个是 AI coding,也就是各界 Cursor 字节有变形体 Mars code和 Trae。
目前模型能力有限,解锁的pmf也就那么几个,没必要选。如果有什么共识和非共识,那就全部做好,导致跑道拥堵。如果创业公司选择明牌方向进行充分检验,如果方向不够深,很容易遇到字节。
这一激烈的竞争表明,过去几年大多数pmf都是AI。 enabled App,本质还是个 App,许多因素仍然在字节能力延伸线上,仍然容易陷入拼投放、拼效率、拼资金的境地。
听到DS的爆红让字节内部也深受感动,DS 1 月15 日刚发 App,0 投放, 圈了1亿多客户,打破了全球圈。他没有重投资,重经营效率,重融资。他跳出三界,根本不在既定射程之内。
因为DS从一开始就看到了。 AGI 基础研究,公司全名“杭州深度追求”人工智能基础技术研究“有限公司”,是一家 AI Lab,商业公司不做产品,出发点不同,自然不在延伸线上。
去年,我问 deepseek的人,为什么每个人的模型都做得好?
这位同志说,因为我们老板自己看论文,敲代码,搞招聘。
这个句子还是挺厉害的,的确,时间花在哪里,哪里就容易产生效果?,听起来很简单,但是真相就是这么简单。
卷开源,卷论文只是开始,将来会卷什么?
我们先看 DS 在过去的几年里,OpenAI负责检查,follow OpenAI的前沿模型,DS 采用科学研究的方法复制, GPT3.从5到o1,通过算法和训练方法的一系列创新,练习和推理的成本大大降低。这种前人检查的红利可以持续一段时间,这也是一个打基础、弥补差异的过程。

更加精彩的叙述将发生在无人区,没有人可以。 follow,更加拼写原创思想。预训练后的范式是 RL,RL 未来的范式是什么?下一个 什么是transfomer?LLM的底层原理是什么?AGI 是大型统一模型,还是多种模型化学变化?
这是属于美国的命题,现在中国可能会一起参与解决问题。
Deepseek改变了卷子的方向,使技术创新成为一个新的战场,使竞争更具分享精神,这是一种硬核和高级的竞争。
随着这场竞争的加剧,有些人可能会跳出三界,从技术和场景中开辟另一条路径,远离拥挤的地方,进入新的无人区,开辟第二次世界大战。——这场比赛是为了让探索发生。
作者介绍:吴炳见,心资本Soul Capital合作伙伴,从事与AI相关的风险投资。前一家大型工厂的mobile产品经理 战略分析,之前在险峰和联想之星工作过。投资过多的大型模型和AI应用项目。LLM关键字、AI Native、AI基础设施,Robotics。
本文来自微信公众号“AI大航海”,作者:吴炳见,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




