梁文锋创始人DeepSeek的60条思考
作者 | 梁文锋
来源 | 中国企业家俱乐部 管理智慧
咨询合作 | 13699120588
本文仅代表作者自己的观点。
在整个 2025 春节期间,DeepSeek 人气持续上升,超出预期的产品体验带来口碑裂变。
DeepSeek 梁文锋的创始人公开报道并不多。但在 DeepSeek 在火之前,他曾于 2023 和 2024 年两次接纳 36 从这两次采访中,我们可以清楚地看到,梁文锋在技术洞察和理想主义思维模式上有许多不同之处。这篇文章整理了他的核心。 60 思考在一定程度上也可以帮助我们更直观地理解。 DeepSeek 企业底层逻辑脱颖而出。但愿对你有所帮助。
1. 我们的大模型与量化和金融无直接关系。我们要做的是通用人工智能,即通用人工智能, AGI。
2. 大的语言模型就是通向 AGI 唯一的道路,而且初步具备了 AGI 特征,所以我们从这里开始。
3. 我们不会过早地设计一些基于模型的应用程序,而是专注于模型。从长远来看,大模型的应用门槛会越来越低,未来初创企业 20 每年的任何时候结束,也可以。我们的目标非常明确,就是做研究,做探索,而不是做垂类和应用。
4. 我们理解人类智力的本质是语言,人的思维是语言的过程。你认为你在思考,但事实上,你可能在脑海中编织语言。这意味着人工智能可能会诞生在英语模型上。(AGI)。
5. 如果是复制的话,可以在公开论文或者开源代码的基础上,只需要训练很少的频率,甚至只是 finetune(微调),成本低。而且做研究,要做各种实验和比较,需要大量的计算率,对人员的要求也比较高,所以成本比较高。
6. 即使是一个小小的人,我们也希望更多。 App 大模型可以低成本使用,而不是技术只掌握在一些人和公司手中,形成垄断。大工厂的模型可能与他的平台或生态联系在一起,我们是完全自由的。
7. 从商业角度来看,基础研究的投入收益率很低。我们确信,既然我们想做这件事,并且有能力,我们就是这个时间点最适合的候选人之一。
8. 从最早的 1 张卡,到 2015 年 100 张卡、2019 年 1000 从一万张卡片到一万张卡片,这个过程逐渐发生。很多人会认为这里有一个不为人知的商业逻辑,但其实主要是好奇心驱动的。 AI 好奇的能力边界。
9. 对于许多行外人来说,ChatGPT 这波冲击很大;但是对于业内人士来说,2012 年 AlexNet 带来的影响已推动了一个新时代。AlexNet 错误率远低于当时其它模型,恢复了沉睡数十年的神经网络研究。虽然特定的技术方向一直在变化,但是模型、数据和计算率的组合并没有改变,特别是当 2020 年 OpenAI 发布 GPT3 之后,方向非常明确,需要大量的计算率。之后,我们有意识地安排尽可能多的算率。
10. 一件令人兴奋的事情,不能简单地用金钱来衡量。就像在家里买钢琴一样,一是买得起,二是因为有一群人急于在上面演奏音乐。
11. 劳动力成本是对未来的投资,也是公司最大的资产。我们选择的人比较简单,比较好奇,有机会来我们这里做研究。大工厂很难简单地做研究和培训,这将更多地受到业务需求的驱动。如果不能快速应用,大工厂可能无法坚持,因为它需要看到更多的结果。
12. 我们招聘的有一个原则是看能力,而不是看经验。如果你追求短期目标,找到现成的有经验的人是对的。但是如果你长期看,经验就没那么重要了,基本能力、创造力和爱情更重要。
13. 我们的关键技术岗位主要是应届毕业生和毕业一两年的人。如果你做一件事,有经验的人会不假思索地告诉你,你应该这样做,但是没有经验的人会反复探索,认真思考该怎么做,然后找到一个符合当前实际情况的解决方案。
14. 爱情是我们招人的条件,这些人的热情一般都会表现出来,因为他真的很想这样做,所以这些人也经常同时来找你。
15. 与一般公司不同,我们的考核指标也不尽相同。 KPI,而且没有所谓的任务。
16. 创新需要尽可能少的干预和管理,让每个人都有自由发挥的空间和试错的机会。创新通常是自己创造的,不是刻意安排的,更不是教学的。我们把重要的事情交给员工,不要干涉他。让他自己想办法,自己玩。
17. 招人的时候要保证价值观一致,然后通过公司文化保证步调一致。当然,我们没有成文的企业文化,因为所有成文的东西都会干扰创新。更多的时候,这是管理者的示范。当你遇到一件事时,如何做决定将成为一个标准。
18. 按照教科书的方法论来推导创业公司,在当下,他们所做的一切,都是无法生存的。但是市场是变化的,真正的决策力量往往不是一些现成的规则和条件,而是一种适应和优化变化的能力。许多大型企业的组织结构已经不能迅速响应和做事情,而且他们很容易把以前的经验和惯性变成束缚,而这波浪潮 AI 在新的浪潮下,一定会有一批新公司诞生。
19. 最令我们兴奋的是要弄清楚我们的猜测是否真实,如果是对的,我们会非常兴奋。
20. 信徒会以前就在这里,以后也在这里。她们更多地去批量购买卡片,或与云厂商签订长期协议,而非短期租赁。
21. 创新是昂贵和低效的,有时伴随着浪费。因此,创新只有在经济发展到一定程度后才能出现。当你很穷的时候,成本和效率对于没有创新驱动的行业来说是至关重要的。OpenAI 还烧了不少钱才出来。
22. 这个世界上有很多事情是逻辑无法解释的,就像很多程序员一样,他们也是开源社区的疯狂推动者。他们一整天都很累,不得不提供代码。就像你走路一样。 50 一公里,全身瘫痪,但精神非常满足。
23. 并非每个人都可以疯狂一辈子,但是大多数人,在他年轻的时候,能够完全没有功利的目的,全身心地投入到一件事上。
24. 我们的大型服务降价只是按照自己的节奏做事,然后计算成本和定价。我们的原则是不贴钱,不赚暴利,在成本上赚一点利润。
25. 抢客户不是我们的主要目的。一方面,我们降低了价格,因为在实践下一代模型结构时,我们首先降低了成本,另一方面,我们认为无论如何, API,还是 AI,一切都应该是普惠的,每个人都能负担得起的东西。
26. 假如目标是做应用,那么沿用它。 Llama 结构性、稳定性、狠上产品也是合理的选择。但是我们的目的地是 AGI,这就是说,在有限的资源下,我们需要研究新的模型结构,实现更强的模型能力。这是 scale up 要进行更大模型的基础研究之一。除了模型结构,我们还做了很多其他的研究,包括如何结构数据,如何让模型更像人类,这些都体现在我们的发布模型上。
27. 最重要的是参与全球创新的浪潮。在过去的许多年里,中国公司已经习惯了别人的技术创新。我们用它来实现应用,但这不是理所当然的事情。在这波浪潮中,我们的初衷不是借机赚钱,而是走在技术的前沿,促进整个生态发展。
28. 伴随着经济的发展,中国也将逐渐成为推动者,而非一直搭便车。三十多年过去了 IT 我们几乎没有参与到真正的技术创新中来。我们习惯于摩尔定律从天而降,躺在家里 18 更好的硬件和软件将在几个月内出现。但事实上,这是西方领先的技术社区一代又一代不知疲倦地创造出来的,只是因为我们之前没有参与这个过程,所以我们忽略了它的存在。
29. 大多数中国公司习惯 follow,而非创新。
30. 创新的成本肯定不低。过去带来主义的做法与过去的国情有关。但现在,无论是中国的经济规模,还是字节、腾讯等大公司的利润,在世界范围内都不低。我们缺少的不是资本,而是缺乏信心,不知道如何组织高密度的人才来实现有效的创新。
31. 在过去的30年里,每个人都只强调赚钱,而忽视了创新。创新不是商业驱动的,而是好奇和创造的欲望。我们只是被过去的惯性所束缚,但也是阶段性的。
32. 面对颠覆性的技术,闭源形成的环城河是短暂的。即使是 OpenAI 闭源也不能阻止被别人赶超。所以我们把价值放在团队上,同事在这个过程中成长,积累了很多。 know-how,形成一个能创新的组织和文化,这就是我们的环城河。
33. 开源,发论文,没有什么损失。对技术人员而言, follow 这是一件很有成就感的事情。开源更像是一种文化行为,而不是商业行为。给予是一种额外的荣誉,一个公司这样做也会有文化吸引力。
34. 在美国,最赚钱的公司,都是高科技公司。
35. 中国 AI 和美国是真实的 gap 这就是原创与模仿的差距。假如这一点没有改变,中国永远只能是跟随者,因此有些探索是无法逃避的。
36. 英伟达的领先不仅仅是一家公司的努力,更是整个西方技术社区和产业共同努力的结果。他们可以看到下一代的技术趋势,手里有路线图。中国 AI 发展也需要这样的生态。很多国产芯片因为缺乏配套的技术社区,只有二手新闻而无法发展,所以中国必须有人站在技术的前沿。
37. 在我们看来,首先要有一个强大的技术生态,这是非常重要的。
38. 在短期内,我们没有融资计划,我们面临的问题从来不是金钱,而是高端芯片被禁止。
39. 更多的投入并不一定会产生更多的创新,否则大厂就能把所有的创新都包揽起来。
40. 我们认为现阶段是技术创新的爆发期,而不是应用的爆发期。从长远来看,我们希望形成一种生态,即我们的技术和输出直接应用于行业,我们只负责基本模型和前沿创新,然后其他公司在 DeepSeek 在此基础上构建 toB、toC 商业。假如能够形成一个完整的产业上下游,我们就不需要自己去应用了。
41. 必要的话,我们的应用没有障碍,但是研究和技术创新永远是我们的第一要务。
42. 技术没有秘密,但重置需要时间和成本。理论上,英伟达的显卡没有技术秘密,很容易复制。但是重组团队,追求下一代技术需要时间,所以实际的环城河还是很宽的。
43. 提供云服务并非我们的主要目标,我们的目标是实现云服务 AGI。
44. 大型企业拥有现成的客户,但其现金流业务也是其负担,也将使其成为随时被颠覆的对象。
45. 大型创业公司可能会生存下来 2 到 3 家。现在还处于烧钱阶段,那些自我定位清晰、运营更精细的人更有机会生存。其他公司可能会重生。有价值的东西不会消失,但会改变。
46. 我经常思考的是,一件事能否提高社会的运行效率,能否在其产业分工链中找到自己擅长的位置。只要最后的结局是为了让社会更有效率,就是为了建立。中间很多都是阶段性的,过度关注一定是眼花缭乱。
47. 我们发布的 V2 那些没有从海外回来的模型,都是本地的。 50 顶尖人才也许不在中国,但是我们可以自己创造这样的人。
48.DeepSeek 都是自下而上的。而且我们一般不是外部分工,而是自然分工。每个人都有自己独特的成长过程,都有自己的想法,不需要。 push 他。在探索的过程中,当他遇到问题时,他会自己讨论。但是当一个人 idea 展示潜力,我们也将从上到下进行资源配制。
49. 我们每个人对卡片和人的刺激都没有上限。如果你有想法,每个人都可以随时调用训练集群的卡片,不需要审核。同时,只要对方感兴趣,只要对方感兴趣,就可以灵活调用每个人,因为没有层次和跨部门。
50. 我们选人的标准一直是爱和好奇,所以很多人会有一些奇怪的经历,很有意思。许多人对研究的渴望远远超过他们对金钱的关心。
51. 创新首先是一个信仰问题。硅谷为什么这么有创新意识?第一,敢。Chatgpt 出来的时候,整个国家对做前沿创新缺乏信心。从投资者到大工厂,我们都觉得差距太大了。让我们应用它。但是创新首先需要自信,这在年轻人中一般更为明显。
52. 我们正在做最困难的事情。对顶尖人才最有吸引力的一定是解决世界上最困难的问题。事实上,顶尖人才在中国被低估了。因为整个社会层面的硬核创新太少,他们没有机会被识别。我们正在做最困难的事情,这对他们很有吸引力。
53.OpenAI 不是上帝,不可能一直冲在前面。
54.AGI 可能是 2 年、5 年或者 10 年份,总而言之,将在我们有生之年实现。即使在我们公司内部,对路线图也没有统一的意见。但是我们确实注入了三个方向:一是数学与代码,二是多模态,三是自然语言本身。数学和代码是 AGI 自然试验场,有点像围棋,是一个封闭的、可验证的系统,通过自学可以达到很高的智力。另一方面,多模态,参与人类真实世界的学习,对吗? AGI 这也是必要的。所有的概率我们都保持开放。
55. 未来会有专门的公司提供基本的模型和服务,会有很长的专业分工链。更多的人满足了整个社会多样化的需求。
56. 在研究下一代的大模型时,我的主要精力仍然存在许多未解决的问题。
57. 所有的套路都是上一代的产物,未来可能不成立。以互联网的商业逻辑讨论未来 AI 盈利模式,就像马化腾创业的时候,你去讨论通用电气和可口可乐一样,很可能是一种刻舟求剑。
58. 我们经历了一个漫长的积累过程,外界看到的是幻方 2015 年后的部分,但实际上我们做到了。 16 年。
59. 未来中国产业结构的调整将更加依赖硬核技术的创新。当很多人发现过去赚快钱很可能来自时代的财富时,他们会更愿意弯腰去做真正的创新。
60. 未来硬核创新会越来越多,现在很难理解,因为整个社会群体需要事实教育。当这个社会让硬核创新的人事业有成时,集体思想就会发生变化,我们只需要一堆事实和一个过程。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




