DeepSeek大规模扩招梁文锋携硬核技术蓄势待发

01-15 06:42

春节档已提前开启

摘要：

2025年11月DeepSeek曾开放行政招聘，相关人士称是因团队扩大需更多行政人员支持。

距离春节尚有一段时间，国内科技圈节奏似已提前进入假期模式，唯有DeepSeek例外。

昨日，DeepSeek突然在GitHub开源新模块Engram的代码，并发布论文《Conditional Memory via Scalable Lookup》；元旦当天，还发布了关于模型架构稳定性的《mHC》论文。

两篇硬核论文作者列表中均有DeepSeek创始人梁文锋的名字。如此高密度的技术输出，并非为凑年底KPI，而是向外界传递明确信号：沉默期间，DeepSeek并未停歇，正为下一代模型积蓄力量。

旺盛的招聘需求印证了这一观点。凤凰网科技检索社交媒体信息发现，DeepSeek近期大量招人，放出多个核心技术岗位，包括深度学习研究员（负责LLM前沿探索，如预训练、alignment、codemath等方向）、深度学习研发工程师（LLM预训练数据/搜索策略相关）、大模型全栈工程师（算法与工程并重，参与前沿方向及环境部署）、全栈开发工程师、核心系统研发工程师等。招聘者表示校招、社招、实习均开放，还有产品、设计、数据百晓生等岗位。

值得注意的是，从梁文锋此前署名论文的作者名单看，DeepSeek人员稳定性高，此次招聘主要是扩招需求。多数岗位可在北京或杭州工作，与此前多需赴杭州不同。2025年11月DeepSeek就曾开放行政招聘，相关人士称是团队扩大需更多行政伙伴。

如今技术储备已足，或许正是梁文锋带领团队发力的时刻。

梁文锋提前开启DeepSeek“春节档”

DeepSeek的“春节档”已提前拉开帷幕。当全行业盘点2025年应用层得失时，DeepSeek将目光聚焦于架构层。

最新发布的Engram研究是与北京大学合作完成的，直指当前Transformer架构的痛点：大模型虽通过MoE实现“条件计算”，却缺乏原生“条件记忆”，记东西依赖算力模拟检索。DeepSeek提出的Engram模块，要为大模型加装外挂“硬盘”，使其能以O(1)时间复杂度调取知识，无需算力硬抗。

元旦发布的《mHC：流形约束超连接》中，梁文锋团队解决了超大规模模型训练稳定性问题。随着模型增大，传统残差连接失效，训练易崩溃。DeepSeek用数学方法将神经网络连接约束在特定流形空间，恢复信息传递稳定性。

实验显示，在27B参数混合专家模型上，mHC训练曲线稳定，最终损失较基线降低。

DeepSeek团队还为mHC架构做了一系列基础设施优化：用TileLang框架实现融合内核，合并分散操作减少内存访问；针对Sinkhorn-Knopp算法设计专用内核，避免存储开销；扩展DualPipe调度策略，实现计算与通信重叠。这些优化让mHC在保持性能优势的同时减少额外开销。

回顾过去一年，DeepSeek在做什么？若说V2和V3证明团队能做好MoE，那这一年DeepSeek试图回答“除了MoE，大模型还需要什么”。

首先是记忆机制重构。Engram设计中，DeepSeek发现U型扩展规律：同等参数量和计算量下，20%-25%资源分给静态记忆（Engram）、剩余给神经计算（MoE）时模型效果最佳。这一反直觉发现表明，少算多记反而更聪明。

数据支撑这一理论：Engram扩展到270亿参数后，模型背书能力（MMLU）提升3.4，推理能力（BBH）提升5.0，数学能力提升2.4，长文本测试准确率从84.2%升至97.0%。

其次是底层连接修补。mHC研究中，团队展现出工程与数学结合能力，优化后27B规模模型训练损失降低0.021，推理能力提升2.1%。

这一年，DeepSeek未在应用层红海恋战，而是回归硬核领域夯实Transformer架构地基：Engram解决“记不住”“推理慢”问题，mHC解决“长不大”“练不稳”问题。

正因如此，一年过去DeepSeek仍处于行业前列。正如业内人士所言：“DeepSeek这家公司始终在创新。”

DeepSeek V4是否即将面世？

如今高潮或将到来，所有线索指向同一方向：DeepSeek V4。

叠加两篇论文看，V4轮廓已清晰。它大概率不是单纯堆砌参数的模型，而是架构精巧的“融合体”：具备MoE的计算效率，集成Engram的低成本记忆，底层由mHC架构支撑超大规模训练稳定性。

Engram论文提到，该架构支持“预取-重叠”策略，CPU存知识、GPU算逻辑。这意味着V4可能在保持推理成本低廉的同时，拥有更强知识容量和长上下文处理能力，或对显存成本受限的行业形成降维打击。

此外，mHC的成功验证说明DeepSeek掌握了训练更大规模多模态模型甚至万亿参数模型的“稳定器”。对算力不富裕的国内AI圈而言，算法层面的效率提升比购买芯片更具战略意义。

技术拼图已齐，基础设施优化代码也已上传GitHub。梁文锋此时连续发布硬核研究，不只是学术交流，更像是发布会前的技术路演。

春节将至万物闭藏，但也可能是惊雷孕育之时。DeepSeek V4的发令枪或许已在梁文锋手中，只待时机成熟。

本文来自微信公众号“凤凰网科技”，作者：姜凡，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

94年AI女将身价40亿：MiniMax贠烨祎的造富神话

以GEO为核心，搜索营销将走向何方？当AI主导决策的时代来临

上交所依规监管：暂停国晟科技相关投资者账户交易

大家居行业的“轻”与“重”：路径选择与发展思辨

低空产业迎来订单爆发期，行业进入去泡沫化周期

项目推荐

梯影传媒

AI云印侠

宾果智能

DeepSeek大规模扩招 梁文锋携硬核技术蓄势待发

梁文锋提前开启DeepSeek“春节档”

DeepSeek V4是否即将面世？

延伸阅读

项目推荐

DeepSeek大规模扩招梁文锋携硬核技术蓄势待发