对比OpenAI o1!Kimi发布了新一代推理模式:中考考研全第一

2024-11-19

快科技 11 月 18 日前,国内人工智能公司月亮暗面推出的日新闻 Kimi 国内大型模型正式发布 k0-math。


k0-math 是 Kimi 通过模拟人脑的探索和反思过程,推出了第一个强化推理能力的模型,采用了全新的强化学习和思想链推理技术,大大提高了处理数学问题的能力。


据悉,在多项数学标准能力评估中,k0-math 性能可以比较 OpenAI o1 两种可以公开使用的系列模型:o1-mini 和 o1-preview。


根据官方公布的结果,包括入门竞赛题在内的中考、高考、考研和 MATH 等 4 在数学基准测试中,k0-math 第一代模型的结果超过了 o1-mini 和 o1-preview 模型,获得第一名。


数学能力基准测试是业界最常用的。 MATH 中,k0-math 模型评分 93.8,超出 o1-mini 的 90 分和 o1-preview 的 85.5 分。


官员说,k0-math 这个结果仅次于尚未开放使用的结果。 o1 完全版 94.8 分。


根据介绍,常规模型的设定目标是尽早提供问题的答案,但是 k0-math 不同,k0-math 模型在复习过程中会花更长的时间进行推理,包括思考和规划思路,必要时反思提高解决问题的思路,提高答案的通过率。


然而,月之暗面直言,k0-math 虽然擅长回答大多数难题,但新版本仍然无法回答大多数难题。 LaTeX 难以形容格式的几何图形问题。


此外,k0-math 还有一些局限性需要突破,包括过于简单的数学问题,例如 1 1 等于几,k0-math 对于高考难题和高考难题,模型可能会过度思考 IMO 题目仍有一定概率出错,猜测答案。


月亮的暗面表明,这些局限既是机遇,也是挑战,预计在下一阶段的模型迭代中会逐步得到改善。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com