梁文锋就是梁文锋,DeepSeek
杭州,2024年冬天。
一位中国码农站在巨大的落地窗前,眺望着窗外的京杭大运河,西方仍然沉浸在圣诞节的狂欢中。
十分钟后,他做了一件让硅谷震惊的事情。
神秘的力量来自东方
一种新的模式,让整个峡谷嗡嗡作响!
当美国CNBC电视台报道这一事件对硅谷的影响时,这样评价。
十二月二十六日,杭州一家名为“深度追求”的中国创业公司,发布了新一代大模式:
DeepSeek-V3。
在多个基准测试中,DeepSeek-V3的性能超过了其它开源模型,甚至与顶级闭源大型GPT-4o相当。

特别是在数学推理上,DeepSeek-V3更是遥遥领先。
令人吃惊的是,DeepSeek-与GPT-4o相比,V3的R&D只花了558万美元,训练费用不到后者的二十分之一。
这样,美国人就完全不淡定了。
此前,谷歌和Open 为了成为同样的事情,AI花了几年时间,花了几亿甚至几十亿美元,调用了几万元最先进的GPU。
强烈的对比,让美国人反思:大模型和算率,是否值得投资?
很多硅谷大佬在纷纷称赞的同时,也体会到了中国科技带来的苦涩:在美国人休息的时候,他们正在努力追上我们!
有意思的是,这一事件几乎发生在中国空军六代机的出现中。
许多美国人认为,这更像是上个世纪50年代苏联第一次发射人造卫星的斯普特尼克时刻。
然而,真正让美国硅谷震惊的不是DeepSeek-V3的高性能、低成本,而是中国人展示的第一精神。
过去,中国几乎所有的AI公司都在照搬硅谷,以至于很多人认为美国擅长从0到1的技术突破,而中国只擅长从1到100的应用。
DeepSeek-V3打破了这种偏见,MLA、许多开创性技术,如DeepSeekMoE,大大提高了模型的性能和训练效率。
美国人惊讶地发现,中国公司也可以成为创新推动者,在他们的游戏之外制定自己的游戏规则。这在过去是极其罕见的。
DeepSeek在硅谷被称为“优秀的表现”神秘的力量来自东方。
这种神秘的东方力量令人惊叹的是,它背后的雇主不是像腾讯、阿里这样的互联网巨头,而是一只低调的私募基金。——幻方量化。
现在国内拥有万卡GPU的公司不超过5家,幻方就是其中之一。
在2023年,它成立了一家“深度追求”的子公司,开始了DeepSeek大模型的研发,整个团队只有139名成员,远远低于OpenAI的1200人。
掌管这支队伍的,是一位名叫梁文锋的80后,也是幻方量化的创始人。
好奇心驱使着疯狂
从2008年开始,梁文锋和幻方的故事。
那一年,他从浙江大学毕业,主修软件工程。他没有像同龄人一样进入大工厂做代码农民,而是独自跑到成都,住在出租屋里。
那儿,梁文锋开始研究各种用电脑赚钱的方法。
经过多次折腾,他决定最终进行量化投资。但是这个决定并不容易,毕竟当时量化在国内还是一件新鲜事。
许多人不相信,量化能赚钱。
每次遇到困难,梁文锋总会想起西蒙斯量化投资的一句话:一定有办法对价格进行建模。
在这种信念的支持下,梁文锋苦苦挣扎了两年,终于有了光明的未来。2010年,沪深300股指期货推出,量化投资迎来春天。
利用这股东风,梁文锋和他的团队大赚一笔,自营资金超过5亿元。
同时,随着深度学习算法的突破,人工智能大爆发。早年在浙江大学研究人工智能梁文锋,点燃雄雄斗志。
2015年,他和浙江大学的校友一起创造了幻方量化。
一些意气风发的年轻人,试图利用数学和人工智能,在中国建立一只世界级的量化对冲基金,比如文艺复兴。
仅仅一年后,他们就推出了第一笔由AI驱动的实盘交易,并在随后,将所有的交易策略都AI化。
在新技术的加持下,幻方量化了其基金的回报率,远远超过了沪深300指数的同期。

这样,幻方量化基金的规模不断上升,2021年一度超过千亿元大关,国内四大量化天王之一。
但是,随着基金规模的扩大,梁文锋面临着一个棘手的问题。
AI交易策略需要计算率的支持,尤其是随着模型参数的快速增加,对GPU计算能力的需求也在增加。
怎样解决这个难题?梁文锋的选择是:堆算率!
自2019年以来,幻方量化了AI算率的大规模布局。
当时投资2亿元,建成了“萤火虫一号”AI算率集群,配备了1100个GPU算卡。当时的特斯拉刚刚提出了Dojo超级计算的概念。
几个月后,当英伟达发布最新的A100芯片时,梁文锋又一次跑了,变成了第一批在亚太地区拿到卡的人。
随后,2021年,他又投资了10亿元,建成了“萤火虫二号”,配备了10,000A100计算卡,计算率相当于76万台个人计算机。
它的面积,比10个篮球场还要大。
梁文锋的行为让很多人在AI大模型还没有爆发的时候感到疯狂。
一只私募股权基金囤积如此多的算率,到底是什么意思?甚至有媒体抱怨:幻方量化吓坏了a股散户。
对于幻方量化的外部想象,仍然停留在资本市场。
但是梁文锋的目光,早已望向浩瀚的星辰。
谷歌研究团队在2017年的一篇开创性文章中,首次提出了Transformer结构。它是一个完全基于注意机制的神经网络,颠覆了过去的传统算法。
一家名为OpenAI的美国创业公司,在新的结构基础上不断地训练自己的大模型。最终在2022年ChatGPT点燃AI大模型时代。
此后,全球互联网巨头,沿着OpenAI的路线推进,很少有人质疑。
但是一群初生牛犊的年轻人,在梁文锋的带领下,做了一件非常疯狂的事情:它们试图改善Transformer结构。
事实上,梁文锋和他的团队从2023年创立深度追求,进入大模型的第一天起就开始反思算法框架。
这群年轻人不走寻常路,当有人陷入简单模仿OpenAI的惯性时。
在失败的风险下,他们大胆地尝试了MLA(双头潜在注意机制)、DeepSeekMoE(混合专家模型)等多种开创性技术。
几年前囤积的大量算率芯片,为他们的梦想,插上了羽翼。
最终,这群年轻人创造了历史:DeepSeek-V3问世,一夜惊呆了硅谷。
"中国不可能永远跟随!"
与中美科技产业相比,我们常常感慨:
为什么中国不能像乔布斯、马斯克、黄仁勋这样伟大的企业家?
乔布斯生前只有一个目标:活着,只是为了改变世界。
早在年轻的时候,黄仁勋就立下了豪情壮志:要做不同的事情,要彻底改变计算。
马斯克更是疯狂地大喊:要殖民火星,为人们寻找第二个家。
相比之下,中国企业家似乎更加关注赚钱和生存,很少抬头仰望星空,对创新也不够重视。
事实上,在过去的30年里,我们已经习惯了摩尔定律从天而降,躺在家里18个月就会出现更好的硬件和软件。
因此,在IT浪潮中,我们几乎没有参与到真正的技术创新中来。
但是这一情况,近年来悄然发生了变化,中国新生代企业家正以突破性创新,在西方游戏之外开始另一个炉子。
而不是一直搭便车,中国也要逐渐成为创新的推动者。梁文锋说。
梁文锋早在上大学的时候就坚信:AI肯定会改变他的命运。毕业后,他在量化投资方面赚了足够的钱。
这样,他就有了足够的资本,听从内心的声音,去做自己喜欢的事,而不是先权衡利弊。
在DeepSeek成立之初,核心使命就确立了:探索通用人工智能的本质!
很少有企业敢于在中国AI界提出如此疯狂的目标。
所以,近年来,当很多大型厂商忙着抢客户,做商业化变现的时候,梁文锋却苦哈哈地开始了看似无利可图的基础研究。
"创新并不完全是商业驱动的,而是好奇和创造欲望."他说。
对梁文锋来说,中国企业过去被商业驱动的惯性所束缚。但愿DeepSeek能够摆脱这种束缚。
这种发展理念,在今天的中国企业界,似乎有点离经叛道。
曾有不止一位业内人士表示:
梁文锋是中国AI界极其罕见的人物。他拥有可怕的学习能力,兼顾强大的infra工程和模型研究能力,可以调动资源。
对内部人员来说,而梁文锋则完全不像老板,更像是极客。
到目前为止,他仍然保持着低调的风格,就像公司的其他研究人员一样,每天阅读论文,敲打代码,参与小组讨论。
这位低调的大佬,甚至选人、用人的方式也与主流格格不入。
如果很多大型企业都热衷于到海外挖人,梁文锋却以不变应万变,坚持从当地招人,并且大声说:
"世界前50名顶尖人才也许不在中国,但也许我们可以自己创造这样的人。"
不仅没有海外人才,也没有行业领袖。梁文锋更喜欢没有经验的年轻人,因为他们不受规章制度的束缚。
选人的标准一直是DeepSeek。爱与好奇。
事实上,这家创业公司并不是外界传闻的,有一批高深莫测的天才,而是一些毕业才几年的年轻人。
甚至,很多都是博四、博五见习生,北大、清华等Top大学还没有毕业。
由于工作太前沿,这些年轻人在开展工作时,基本上没有参考资料。但是,正是这一空白,使他们敢于突破传统。
例如,DeepSeek-MLA架构是V3最重要的创新之一,它来自于一位年轻人的心血来潮。
在DeepSeek内部,没有上下级分工。
在研究过程中,如果有想法,每个人都可以拉人讨论,并且随时调用公司培训集群的卡片,不需要审核,也不需要设置上限。
这一看似宽松的管理方法,极大地激发了大家的好奇心和创造性欲望,使DeepSeek-V3出现。
对于梁文锋,我们隐约看到了乔布斯、马斯克和黄仁勋。
"中国AI不可能永远跟随它!"
真正的差距不在于一年或两年,而在于原创和模仿。
这两句从梁文锋口中喊出来的话,不仅与AI行业有关,也是中国公司在跟随和模仿西方几十年后不得不面对的突破方向。
垂下的果实全部摘下,只有敢于突破,才能找到新的出路。
梁文锋并不孤单。
如今,从大疆无人机汪滔,到宇树机器人王兴兴...一大批新生代企业家,正在把中国的技术产业带到无人区。
参考资料
[1]《 揭秘DeepSeek:一个更加极端的中国技术理想主义故事暗涌Waves
[2]《疯狂幻想:一个隐形AI巨头的大模型之路》暗涌Waves
本文来自微信公众号“华商韬略”(ID:作者:华商韬略,36氪经授权发布,hstl8888)。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




