DeepSeek大规模扩招 梁文锋携硬核技术蓄势待发

01-15 06:42
春节档已提前开启


摘要:


2025年11月DeepSeek曾开放行政招聘,相关人士称是因团队扩大需更多行政人员支持。


距离春节尚有一段时间,国内科技圈节奏似已提前进入假期模式,唯有DeepSeek例外。


昨日,DeepSeek突然在GitHub开源新模块Engram的代码,并发布论文《Conditional Memory via Scalable Lookup》;元旦当天,还发布了关于模型架构稳定性的《mHC》论文。



两篇硬核论文作者列表中均有DeepSeek创始人梁文锋的名字。如此高密度的技术输出,并非为凑年底KPI,而是向外界传递明确信号:沉默期间,DeepSeek并未停歇,正为下一代模型积蓄力量。


旺盛的招聘需求印证了这一观点。凤凰网科技检索社交媒体信息发现,DeepSeek近期大量招人,放出多个核心技术岗位,包括深度学习研究员(负责LLM前沿探索,如预训练、alignment、codemath等方向)、深度学习研发工程师(LLM预训练数据/搜索策略相关)、大模型全栈工程师(算法与工程并重,参与前沿方向及环境部署)、全栈开发工程师、核心系统研发工程师等。招聘者表示校招、社招、实习均开放,还有产品、设计、数据百晓生等岗位。


值得注意的是,从梁文锋此前署名论文的作者名单看,DeepSeek人员稳定性高,此次招聘主要是扩招需求。多数岗位可在北京或杭州工作,与此前多需赴杭州不同。2025年11月DeepSeek就曾开放行政招聘,相关人士称是团队扩大需更多行政伙伴。


如今技术储备已足,或许正是梁文锋带领团队发力的时刻。


梁文锋提前开启DeepSeek“春节档”


DeepSeek的“春节档”已提前拉开帷幕。当全行业盘点2025年应用层得失时,DeepSeek将目光聚焦于架构层。


最新发布的Engram研究是与北京大学合作完成的,直指当前Transformer架构的痛点:大模型虽通过MoE实现“条件计算”,却缺乏原生“条件记忆”,记东西依赖算力模拟检索。DeepSeek提出的Engram模块,要为大模型加装外挂“硬盘”,使其能以O(1)时间复杂度调取知识,无需算力硬抗。


元旦发布的《mHC:流形约束超连接》中,梁文锋团队解决了超大规模模型训练稳定性问题。随着模型增大,传统残差连接失效,训练易崩溃。DeepSeek用数学方法将神经网络连接约束在特定流形空间,恢复信息传递稳定性。


实验显示,在27B参数混合专家模型上,mHC训练曲线稳定,最终损失较基线降低。


DeepSeek团队还为mHC架构做了一系列基础设施优化:用TileLang框架实现融合内核,合并分散操作减少内存访问;针对Sinkhorn-Knopp算法设计专用内核,避免存储开销;扩展DualPipe调度策略,实现计算与通信重叠。这些优化让mHC在保持性能优势的同时减少额外开销。


回顾过去一年,DeepSeek在做什么?若说V2和V3证明团队能做好MoE,那这一年DeepSeek试图回答“除了MoE,大模型还需要什么”。


首先是记忆机制重构。Engram设计中,DeepSeek发现U型扩展规律:同等参数量和计算量下,20%-25%资源分给静态记忆(Engram)、剩余给神经计算(MoE)时模型效果最佳。这一反直觉发现表明,少算多记反而更聪明。


数据支撑这一理论:Engram扩展到270亿参数后,模型背书能力(MMLU)提升3.4,推理能力(BBH)提升5.0,数学能力提升2.4,长文本测试准确率从84.2%升至97.0%。


其次是底层连接修补。mHC研究中,团队展现出工程与数学结合能力,优化后27B规模模型训练损失降低0.021,推理能力提升2.1%。


这一年,DeepSeek未在应用层红海恋战,而是回归硬核领域夯实Transformer架构地基:Engram解决“记不住”“推理慢”问题,mHC解决“长不大”“练不稳”问题。


正因如此,一年过去DeepSeek仍处于行业前列。正如业内人士所言:“DeepSeek这家公司始终在创新。”


DeepSeek V4是否即将面世?


如今高潮或将到来,所有线索指向同一方向:DeepSeek V4。


叠加两篇论文看,V4轮廓已清晰。它大概率不是单纯堆砌参数的模型,而是架构精巧的“融合体”:具备MoE的计算效率,集成Engram的低成本记忆,底层由mHC架构支撑超大规模训练稳定性。


Engram论文提到,该架构支持“预取-重叠”策略,CPU存知识、GPU算逻辑。这意味着V4可能在保持推理成本低廉的同时,拥有更强知识容量和长上下文处理能力,或对显存成本受限的行业形成降维打击。


此外,mHC的成功验证说明DeepSeek掌握了训练更大规模多模态模型甚至万亿参数模型的“稳定器”。对算力不富裕的国内AI圈而言,算法层面的效率提升比购买芯片更具战略意义。


技术拼图已齐,基础设施优化代码也已上传GitHub。梁文锋此时连续发布硬核研究,不只是学术交流,更像是发布会前的技术路演。


春节将至万物闭藏,但也可能是惊雷孕育之时。DeepSeek V4的发令枪或许已在梁文锋手中,只待时机成熟。


本文来自微信公众号“凤凰网科技”,作者:姜凡,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com