对话“通宵答疑”的杨植麟:揭秘460万美金与Kimi纯文本路线背后的故事
最近的AI圈,能让东西方开发者社区同时“上头”的,当属月之暗面和它的Kimi K2 Thinking模型。K2 Thinking在推理和编码能力上超越众多前沿模型,被开发者誉为新SOTA,发布后迅速在海内外技术社区引发热议。
在这波热度中,Kimi团队在Reddit举办了一场AMA(Ask Me Anything问我任何事)活动。据了解,通宵答疑的是月之暗面的三位联合创始人杨植麟、周昕宇和吴育昕,这也是三位联创难得的对外“集体亮相”。杨植麟用“ComfortableAsk4494”账号在线答疑。我们向其询问了两个外界关注的问题。

460万成本是真的吗?
为何坚持纯文本路线
我们关注的问题一是K2 Thinking传出的极低训练成本,二是Kimi至今坚持的纯文本和Agent路线的原因。以下是回答。

Q:K2思维模型460万美元的训练成本是真的吗?
A:这不是官方数据。训练成本中研究和实验占比大,难以量化具体数字。

Q:纯文本Agent专注策略是为短期达SOTA,还是长期看好的方向?
A:训练视觉语言模型需时间获取数据和调整训练,所以先发布文本模型。
AMA是Reddit传统,许多政商科技与娱乐圈知名人物都曾借此与社区交流。Kimi选择r/LocalLLaMA分区,这是开源模型、模型本地化部署分区,聚集众多硬核开发者,或许是中国AI公司首次以这种形式在海外技术社区开诚布公。以下是更多AMA内容:

AMA实录
除我们的问题,Kimi核心团队还回答了全球开发者的更多问题,涉及Kimi模型及行业看法。
以下是AMA省流版和实录:
训练成本:460万美元训练成本非官方数字。
用什么训练的:配备InfiniBand的H800 GPU。
K3新架构:将采用混合架构。
K2为何采用INT4:为更好兼容非Blackwell架构的GPU。
多模态:“我们正在做。”
Muon优化器:可良好扩展至1万亿参数
K3什么时候来:“Sam的万亿级数据中心建成之前”。

Q:训练硬件配置如何?架构与美国巨头系统相比怎样?
A:使用配备Infiniband的H800 GPU;虽比不上美国高端GPU且数量少,但充分榨取每张显卡性能

Q:感谢为开源社区带来先进模型!Kimi下一代旗舰模型会用KDA技术吗?有何优势?
A:在预训练和强化学习比较中,采用NoPE MLA的KDA混合模型表现优,分数高、速度快、更经济,能加速预训练、更快部署并服务更多用户。还有更多改进在研发,准备好会分享。
A:KDA是最新实验性架构,相关理念可能用于K3架构。

Q:K3什么时候出?
A:在Sam的万亿级数据中心建成之前

Q:为何用相对未经充分测试的优化器训练大模型?
A:Muon虽未经他人测试,但已通过所有扩展阶梯验证有效性。对自身研究体系有信心,已有数十种优化器和架构被淘汰。

Q:fp4与int4相比有显著提升吗?int4完成编码任务足够好吗?
A:选择int4是为兼容非Blackwell架构的GPU,利用现有int4推理Marlin内核(https://github.com/IST-DASLab/marlin)。工程师对此有详细中文解读:https://www.zhihu.com/question/1969558404759544488/answer/1970539327902679960
除分享技术亮点,Kimi团队回应了模型槽点质疑,给出未来规划和行业看法。

Q:关于token效率问题,kimi k2 thinking似乎用了过多token。计划在下一版本修复吗?
A:当前版本更看重绝对性能,后续会将效率纳入奖励机制,让模型学会压缩思考过程。

Q:你好Moonshot团队!感谢为闭源模型提供竞争。开发k2思维模型遇到的最大挑战是什么?
A:挑战是支持“思考 - 工具 - 思考 - 工具”交替模式,这是LLMs较新行为,实现需大量工作。

Q:你认为LLM架构下一个重大突破是什么?
A:测试了Kimi Linear模型,效果有潜力,还可与稀疏性技术结合。

Q:为什么OpenAI烧钱多?是商业规则还是其他原因?
A:不知道。只有Sam清楚。我们有自己的方法和节奏

Q:有计划发布更重量级闭源模型吗?
A:if it gets too dangerous : )
除Kimi相关话题,Kimi联创团队还回答了一些“隔空对话”火药味的问题。被问是否像OpenAI搞套壳浏览器时,回答是No。周昕宇在被问到DeepSeek的OCR模型时,他表示个人认为这种做法太刻意,宁愿留在特征空间,找更通用和模式无关的方法让模型更有效率。

AMA形式的最大特点是和开发者当面交流的亲历感。Kimi团队由联合创始人级核心技术成员与开发者交流技术细节,足见重视。这种交流能让不同看法浮出水面,让外界了解技术团队的思考方式。这或许是更多AI研究团队可考虑的方式,让交流更有人情味。
- End -
更多文章
微信又调整推送规则啦~若没给我们标星,新鲜内容易被信息流“埋”掉!
赶紧点击右上角「⭐」标星,每篇推文都会优先出现,新内容一更新就能第一时间找到,咱们再也不缺席~
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




