梁文峰和他的超能陆战队
“相信组织的力量”,很多时候,这是一句浮动的话,因为你很难从这句话中获得有效的信息。但这也是梁文锋开放所有DeepSeek的原因之一。
迪士尼曾经出品过一部动画电影《超级大陆战队》,获得了IP大白。然而,通过深入研究内容,大白只是主角创作的“工具人”。这部电影更深层次的表达是,在男主Hiro的带领下,这是一场关于“组织胜利”的比赛,他和他的团队击败了强大的对手。
这部电影于2014年上映,但如果在今年和之后重新上映,至少在中国市场,人们可能会为Hiro找到一个新的原型:梁文锋。在DeepSeek的故事中,他和他的团队是所有变化的奇点。
就像Hiro的胜利一样,不是因为大白,而是因为Hiro本人和他的朋友。
一、“Nerd”
二人起家的方式都有点探索:Hiro靠赌博,梁文锋靠炒股。这两个词在人们的调侃中常常被放在一起,唯一的区别就是是否违法。
但对他们俩来说,由于确定值足够高,探险是不存在的。
年轻的天才Hiro因为对学校教授的知识感到厌烦,高中辍学后就在街上闲逛,靠自研机器人打比赛谋生。
他的机器人采用磁力伺服器技术,充满灵活性。自诞生以来,他从未输过。因此,他总能在各种比赛中横扫千军,获得赌资。
对于那些循规蹈矩的科学创作者,他带着深深的鄙视,称他们为“nerd(书呆子)”,对于做学术研究的科研工作室来说,当然是“nerd school”。
不幸的是,梁文锋就是这样。nerd”,他甚至主动组织了一个“nerd school”。
只是即使成了nerd,在当时看来也是一种略显“叛逆”的选择。
那是2010年,BAT格局已经完成,大厂程序员成为逆天而行的新样本。然而,获得电子信息工程硕士学位的梁文锋选择了进入成都的一栋出租屋。经过几次尝试,他切入了“足够复杂”的金融跑道,并以8万元的成本成为量化投资。
所谓量化投资,简单来说就是用计算机及其设置的算法程序代替人们做出投资决策。行业先驱詹姆斯·西蒙斯花了15年时间完善模型,最终实现了“即使睡觉也能赚钱”的目标。
这是一个适合中国的“nerd一个知名的量化私募行业,甚至直接把“nerd"写作公司文化信条之一。
具体到人的表现,就是“不打招呼,说话离你三米远”。在后来看到梁文锋的人的叙述中,梁文锋的表现基本符合人们对量化投资者的刻板印象。
幸运的是,充分的成功可以大大改变一个词的负面特征。当业内人士开始知道梁文锋的名字时,他已经是幻方量化的创始人,管理着数百亿的基金规模。在巅峰时期,幻方量化管理了近1000亿元的资金规模。当然,在DeepSeek走红之后,这些成就的意义变得更像是开胃菜。
Hiro和梁文锋的另一个相似之处在于:人生的方向是由偶像决定的。
在《超级大陆队》中,Hiro被哥哥设计“骗”到机器人实验室,认识了一群和他一样的科技爱好者,卡拉汉教授Hiro把他当成偶像,所以他决心加入这个“nerd school”,从此结束了街头混迹的生活。
梁文锋的偶像是西蒙斯,他曾经希望有一天,他能成为一个堪比西蒙斯的人。
海外量化投资有赚钱后投资基础科学研究的传统。西蒙斯原本是一名数学家。量化投资赚钱后,他支持了许多纯理论科学研究。
热爱数学模型和编程的梁文锋,沿着这条路做了很多研究:如何全面描述整个金融体系,是否有更简单的表达方式,不同范式的能力边界在哪里,这些范式是否适用范围更广...在这个过程中,AI能力的边界成了他最好奇的事情。通用人工智能的难度和前景,使他点燃了新的战斗力。
这时,他也有了足够的财富。原来幻方每年都有上亿的公益捐款预算。在找到了自己想要克服的行业后,这个预算改变了方向。
从2019年开始,幻方购买了英伟达芯片。到2021年,它手头的芯片已经超过1万个——这个储备在美国管制芯片出口后变得更加被认可。
另外一方面,财富是由许多像梁文锋这样对AI充满好奇的年轻人组成的团队。
图片:图片来源DeepSeek-R1论文鸣谢成员名单截图
遵循人工智能的竞争“人才第一,数据第二,计算率第三”在这三个关键因素中,梁文锋已经收集了两个,理论上已经可以召唤神龙:DeepSeek诞生了。
二、环城河
一项行业共识是:AI技术本身只是阶段性的,是可以追求的,更关键的堡垒是团队的创新能力。
“大模型技术本身不是堡垒,核心竞争力是组织结构和创新团队。”面壁智能首席科学家刘知远和硅基流动的创始人袁进辉表达了这一观点。
阶跃星辰创始人姜大昕告诉媒体:只要OpenAI发布了一些东西,我们的策略就是在6个月内赶上它。
梁文锋也认为技术本身没有秘密,但重置需要时间和成本。因此,他将自己的价值沉淀在团队建设上,用团队的创新能力与行业拉开距离,从而形成一条环城河。
而且创建创新团队,无非是两个指标:人与组织。
DeepSeek有一支被猎头视为“全员精英”的队伍。Jackk,Anthropic创始人 Clark称他们为“高深莫测的天才”。然而,这种说法被梁文锋拒绝了:没有什么高深莫测的天才,都是一些顶尖大学的应届毕业生,没有毕业的博士生,博士生,博士生,还有一些只毕业几年的年轻人。
图片:英伟达高级研究科学家,潘梓正实习期间的导师Zhiding Yu在X平台上回忆与潘梓正的交集。
有一点是清楚的,在梁文锋这里,“经验”是无效的。这种情况在大型企业中实属罕见。
去年,马斯克曾在X上感慨:人工智能领域的人才大战是他见过的最疯狂的人才大战。
在对方阵营中,几乎所有的“高级”工程师和专家都是深入研究巨头争夺的对象。
国内大型公司的人员运营,光晕也属于简历漂亮的程序员。原零一万物模型培训负责人黄文浩博士曾以“吸引包括谷歌和微软在内的海外高水平算法人才回国加入我们”为公司背景背诵;
同一个梯队月亮的暗面,在招聘的时候,也希望应聘者有“国际国内科技大厂的简历和成功的产品经验”,也就是“做了0-1,做了1-1亿”。
DeepSeek看起来有点离经叛道。
一位猎头曾向媒体透露:DeepSeek不需要高级专业人员,3~5年的工作经验已是最多的,超过8年基本上已经过去了。
“如果你做了一件事,有经验的人会不假思索地告诉你,你应该这样做,但没有经验的人会反复探索,然后找到一个符合当前实际情况的解决方案。”梁文锋以自己为例:“我一开始没有量化经验。”
除了学校之外,没有经验,判断是否优秀的标准就是学业成绩。
DeepSeek对员工的要求很高,社交平台上的一个帖子可能可以作为参考:除非你是一个年轻而有潜力的“技术英雄”,否则不要考虑。
据香港《南华早报》报道,DeepSeek-戴黛玫,R1的参与者,是北京大学计算语言学研究所的博士,并在北京大学。 EMNLP 2023 获得最佳长论文奖;
朱启豪是北京大学计算机科学学院的博士,他是DeepSeekMath模型的核心作者之一。 DeepSeek 期间领导了 DeepSeek-Coder-V1 研究与开发,并在顶级会议上发布 16 篇 CCF-A 级论文;
在北京大学攻读硕士学位期间,大众熟悉的“AI天才少女”罗福莉于2019年在人工智能领域顶级国际会议ACL上发表了8篇论文。
在《超能陆战队》中,这个故事的设定也非常相似。
在带领团队与反派作战之前,Hiro的团队成员已经在各自的领域取得了令人印象深刻的成就:Gogo的电磁悬浮单车可以实现零阻力骑行,wasabi的激光诱导等离子光束可以切碎一切,honey lemon可以利用化学物质在金属上制造奇妙的混合物…
在DeepSeek中,这群有一定nerd气质的年轻人比大工厂有更多的可能性:DeepSeekMath模型团队的三位核心作者在博士实习期间完成了相关的研究工作;V2模型中MLA架构创新的提出者,当时还是一名实习生。
也许这也是科技公司实习生的天花板。
优秀有前途的年轻人在模型公司不是稀有物种,但在实习阶段起着至关重要的作用,主导项目的实施,更多的是依靠公司的组织文化。
以MLA架构的提出者为例:这位年轻的研究人员在梳理了Attention架构的一些主流变化规律后,突发奇想地设计了一个替代方案。在探索的过程中,他遇到了问题,自己讨论。当这个想法显示出潜力时,公司会准备资源并给予支持。
DeepSeek爆红后,一段幻方初期的内部采访视频被网友翻出。一位量化策略研究员说:
“幻方有一个非常灵活扁平的团队框架,鼓励不同内部团队成员自由交流合作,最大限度地提高我们的整体创新能力。不要选择KPI、对于OKR等评估机制,每个人都应该根据自己的能力和兴趣找到自己的研究方向。即使是刚毕业的新手,也有机会主导和探索一个全新的领域,团队成员也会给予足够的资源支持。"
很明显,这种企业文化已经被转移到DeepSeek。
梁文锋在与自媒体“暗涌waves”记者于丽丽的谈话中透露:对卡和人的刺激,DeepSeek是非常灵活的,没有层次和跨部门,也不需要审核。他自己更是每天都保持着“看论文,敲代码,参与小组讨论”。
这也和Hiro组队后做的一样:聚集有才华的朋友,用他们有才华的编程技能给予支持,让每个成员都能在自己擅长的领域变得更强,从而提高整个团队的战斗力。
这一“小作坊式”的组织模式,几乎是大厂商的对立:轻盈、快捷、高效。当DeepSeek打破国内AI局面的僵持,迅速成为“基础设施”的角色,大厂商进一步消除了舆论领域的魅力。在一定程度上,这也像是年轻人对成功人士的胜利。
一切都是为了AI
最近市场上频繁出现关于DeepSeek融资的消息,但都被DeepSeek一一否认。事实上,在公司正式成立之前,梁文锋已经和不同的投资者进行了讨论。但对于商业化,双方始终存在分歧,尚未达成。
在他的计划中,梁文锋是一个技术理想主义者,研究并揭示了AGI。 这是DeepSeek的最终目标,商业化不值得关注。这显然与需要投资回报的VC背道而驰,但你不能指责他们的短视:
中国的大型模型公司通常选择做应用创新,而不是技术创新。去最前沿的科技探索意味着没有路可走,要经历很多失败,时间和经济成本都是巨大的。本质上,这与西蒙斯向纯理论科学研究免费捐赠没有什么不同。
而且DeepSeek的员工大部分都是这样的。一位DeepSeek的AI架构师曾经说过。:"我宁愿为1%的性能突破而努力一个月,也不愿为谷歌编程而写一些没有挑战性的代码。"
对他来说,做程序员最大的快乐,就是和一群天才一起坚持一个难题。
另一位AI应用工程师说,他获得自己价值感的那一刻,是英伟达官方收录了团队为模型训练减速提出的解决方案,并成为其他开发者提供的案例。他意识到“我们已经是世界前沿技术团队”。
梁文锋认为,对于技术人员来说,被follow是一件非常有成就感的事情,因为DeepSeek坚持开源的一个原因。这与商业无关,而是“一种额外的荣誉”。
顶尖人才的吸引力法则之一是处理世界上最困难的问题。梁文锋和他的团队在很大程度上是同类。幸运的是,在梁文锋决定坚持AGI之前,他有足够的资金,这是团队专注于研究的重要前提。
你们很难要求一个没有足够食物的乞丐来树立改变人类的愿望,并付诸实践。
除了技术之外,梁文锋和DeepSeek可能也是同行们羡慕的地方。
他能按照自己的意愿做事。
“据我所知,他们甚至没有严肃的产品经理,更不用说营销公关等职责支持了。”一位自我介绍人工智能创业合作伙伴在社交平台上透露。这是梁文锋再次向西蒙斯致敬:“只雇佣与华尔街无关的数学家、科学家和计算机科学家,没有金融背景。”
和梁文锋一样是“超级天才”的杨植麟(月亮暗面的创始人)可能不会这么“任性”。除了技术研究,他还必须考虑商业化,因为他身后还有投资者。这种“农民工的无奈”会在一定程度上分散他的注意力。
他必须更加谨慎。比如更倾向于雇佣有成功项目经验的专业人士,可以降低出错的概率。毕竟钱不是你自己的。
梁文锋的处境当然也不算无忧无虑。
首先,幻方量化的资金规模正在下降。据幻方工作人员介绍,目前公司基金规模超过200亿元,高峰期严重萎缩。梁文锋的“为爱发电”面临现实困境。
而且一旦接受融资,DeepSeek“探索与研究”的初衷,极有可能面临动摇的风险。
另一方面,虽然DeepSeek很强,但它的同行并不弱,它的技术领先优势可能无法长期保持。比如Kimi K1.在OpenAI的o系列文章中,这个模型与DeepSeek-R1并排出现。
最近,梁文锋刚刚提交了一份关于NSA的文件。(Natively Sparse Attention,技术论文,原生稀疏注意力)。
巧合的是,就在同一天,杨植麟还提交了一篇技术论文MoBA。两篇论文回答了同样的问题:如何通过自主研发的结构处理更长的文本,使transformer结构的注意力机制。未来,这两个被认为是中国最有希望的年轻人注定会进行更多的竞争。
来自大厂的压力也不容小觑。
梁文锋曾经认为大工厂的组织结构会干扰创新,但据“晚点”消息,字节表现出“创业公司”的速度和反应,无论是找人还是调整组织:
第一个是张一鸣亲自下台,他研究AI技术论文,从2023年开始,他开始对包括未毕业博士生在内的重要作者进行一对一拜访。
去年,Google被字节挖掘出来。 原 VideoPoet 项目经理蒋路,零一万物黄文昊,以及阿里通义大模型原项目负责人周畅。根据有关人士的说法,字节所提供的条件,使原公司难以挽留。
第二,在组织方面,字节整合内力,快速健全 AI 新部门——Flow。如今,Flow 如果是与抖音、火山、飞书等同级别的主要业务部门, Flow 尤其要调任何人,原部门一般都会同意。这个组织和DeepSeek的“不会有跨部门”一模一样。
简单地说,一切都是为了AI。
另外,不管是资金还是资源,大厂都有足够的优势。不管是梁文锋还是杨植麟,都要振作起来,应对下一场比赛。
如果我们把目光放在世界上,DeepSeek显然会走得更远。虽然它足够优秀,但这次震惊世界的最大原因是同等推理效果下的价格优势。在技术领域,open AI和美国的科技巨头仍然拥有行业优势,而且没有计算限制。
DeepSeek仍然需要负重前进。
不过,尽管外界的讨论如火如荼,DeepSeek和梁文锋仍在按照自己的节奏前进。
截至2月8日,DeepSeek国内APP终端每天活跃用户数达到3494万;海外APP终端DAU达到3685万,全球Web终端每日活动震撼4800万,全球每日活动用户总数达到1.19亿。但是DeepSeek并没有做任何投放,而是让其他公司在DeepSeek中,就像梁文锋当初说的那样。 在此基础上构建toB、toC业务。

于丽丽曾经问梁文锋:每个人都会选择闭源吗?梁文锋的回答没有给未来留下空间:没有。
他认为,与商业化相比强大的技术生态更为重要。与技术垄断相比,他希望实现AI普惠。自然,他也足够自信,相信团队创新速度,将成为开源模式中的一条环城河。
于丽丽在后来的文章中说,这是一个罕见的人,他把“是非观”放在“强大的观点”之前,提醒人们看到时代的惯性,把“原创创新”提上日程。
梁文锋从不横向比较。“我经常想的是,一件事能否提高社会的运行效率,能否在其产业分工链中找到自己擅长的位置。”
继续迭代他。AI行业也是如此。
如此热闹的开场,让2025年的春天似乎更近了。
本文来自微信微信官方账号:略大参考,作者:二毛,编辑:原野。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




