可以看风水，夸我有趣，Kimi现在都这么野吗？

2024-12-20

最近，差评君发现了一个新的东西。

喂给 AI 一张图片，它可以推断出一个人的性格。

单靠歌单，就可以将人近期的心理状态推断为七七八八。

而且这一切，都来自 Kimi 最新的 k1 视觉思维模式之手。

不，距离上次数学模型的推出还有一段距离。 k0-math 打榜 o1 才一个月， k1 很快就出现了。

当然，这个 k1 可以不只是像开头那样，只看图片分析性格那么简单。

上次咱检测 k0-math 当时，我已经看到了。 " 做题家 " 能力，那做题的思考过程让差评君看得一愣一愣。只是遗憾的是，有些绕逻辑的数学题和几何题，多少有点差。

但这次的 k1 有一种说法，既有推理能力，也有视觉能力，这意味着你可以直接拍照上传答案，并声称你可以在数学、物理和化学上打平甚至超越。 Open AI 的 o1 。

那么如果这样比较的话，我们就可以起劲了。碰巧， k1 现在新模型也不需要等待内测， App 而且网页版都可以用，话不多说，我们直接打开。

上去，扔掉 K1 一个今年高考的几何题。

首先， k1 对于题干的解读充分细致，也知道自己的理想究竟是什么。

余弦定理也考虑到了题目给定条件中可能涉及的问题，类似于我们在解决问题时的思维。 a ² b ² − c ² =2ab ，立即将余弦公式联想起来。 c ² =a ² b ² -2ab · cosC 。

然后根据公式和条件继续推导，很快就能找到角度。 B=60 °。

向上滑动查看更多

第（ 2 ）题目有点难，但是差评君仔细检查了一遍又一遍。 k1 解决问题的过程，思路和解决方法都没有问题，最后边长。 c=2 √ 2 答案也是正确的。(因为这个问题 k1 思考的过程真的太长了，截图就不展示了。)

问同样的问题 o1 ，第一，就推理速度而言， o1 的 58s 已经输了。

如果正确率， o1 和 k1 打个平局，都做对了。

不同的是， o1 隐藏回答问题的方法，没有给出像像。 k1 如此完整的思考过程。

然而，有一句话，差评君对。 k1 这种模式模仿人类思维的方式，并不特别令人惊讶。因为上次 k0-math 这个模型已经让我震惊了一次，能够认识到自己的错误，并且会反复验证，很像写数学题的时候煞费苦心的我。

相比之下，这一次 k1 补短板方面更加出彩，上次， k0-math 初中翻车几何题我又拿了。 k1 试过一次，现在已经可以做对了，连高考的难度都不会发。

而我也发现， k1 不但擅长做数学题，物理题也不在话下。

向上滑动查看更多

接着，我又拿出一个逻辑稍微绕了一下的逻辑陷阱题试了试：西瓜的购买价格 50 元，售价 70 元，老板收了 100 元假币，最后损失多少钱？

这个问题打孔看起来很简单，但是网友对这个问题的回答那叫五花八门，有说亏损的说法。 150 的，有说 180 的，还有说 100 的。。。

让我们来看看连很多人类都无法理解的问题， k1 你能看到里面的陷阱吗？

而且，我还特意把这个问题写得很潦草，顺便也测了一下。 k1 视觉能力究竟有没有推广的那么神。

别说了，你真的别说了，这个模型 " 目光 " 的确不错。

就试题的正确率而言， k1 前半部分的分析首先得出一个损失。 100 块的答案，但是后来它否认了自己。

继续把假货币、零钱和成本利润综合考虑了这些复杂因素，终于想通了老板的损失。 80 元。（正确答案是 80 元）

向上滑动查看更多

这种逻辑能力，的确有点强。

包括我在行测中给出的几个类比推理题。 k1 做到了，尽管逻辑分析的路径与答案不同，但是最后的答案是正确的。

向上滑动查看更多

总而言之，经过这次检测，差评君发现了。 k1 会思考有逻辑，眼睛好使智力也高， Kimi 这 " 做题家 " 这个名字算是坐实了。

但除做题外，这次我还探索了更多花里胡哨的玩法。

处理数据，看报告没什么意义， k1 这个模型不会按照图片来推理，那么想要辨别古钱币也应该有一手吧？

差评君特意从网上找到了一张民国时期银圆的照片，两个银圆上假下真，发给他们 k1 ，浅浅来一把 " AI 版听泉鉴宝 " 。

图源小红书用户 @今天的古董(公博代理收评)

k1 不但知道钱币是民国时期的，而且对于钱币的各种细节 kuku 一次导出，最后居然真的看到上面这个是假币。

让我们再发一张房间的图片，让我们 k1 看看 " 风水 " 。

什么 " 气口 " 、对称布局，能量平衡。。。说得好听点，甚至真的给出建议，让我们把床换个位置，定期修剪植物，换个更简单的吊灯。

向上滑动查看更多

吃饭时给 k1 拍一张照片，这顿饭摄入了多少卡路里也算清楚了。

向上滑动查看更多

但最让我感到亮眼的，还是 k1 看图猜影片的能力。

我给了它一个《七宗罪》这部电影的截图，没有台词，只有画面，对于很多没看过这部电影的人来说，很难猜到。

一开始看 k1 分析原本以为这个大概率会变黄，结果下一秒就来了。 " 拍摄角度和色调让我想起了大卫。 · 芬奇的影片 " ，截图中的场景也被推断出来了。《七宗罪》其中一个场景。

的确太强了。。。

即使是一些晦涩的梗图也丢失了。 k1 ，还可以一本正经地解释笑料到底在哪里。

尽管有点过分解读的嫌疑，但是几乎所有的大概意思都是 get 到了。

这么说吧，基于 k1 视觉和推理能力，做题都是基操，只要脑洞够大，还能解锁更多的玩法。

而 k1 这一能力，很大程度上要归功于一个名字。COT （ Chain of Thought ）思维链的技术。

大概意思是，模型在输出答案之前，模仿人脑的思维方式，拆解复杂的任务，然后一步一步地处理。该技术可以提高模型的智商。

另一方面，借助于加强学习技术，也使模型在不断试错的过程中学会进化，从而达到最佳效果，就像训狗一样。

对于为啥 Kimi 将率先选择数学这一场景作为推理模型的起点，我认为，和我们人类学好数学锻炼思维，是一个道理。

在模型 " 学好数学 " 在此基础上，将这种逻辑判断的能力运用到物理、化学，甚至我们日常生活的方方面面，直到我们最终真正了解这个世界。

而很显然， Kimi 推理模型的泛化能力已开始显露出来。

这条基于强化学习技术的路径，在数据达到顶峰的前提下，也许可以使模型达到更好的效果。

但归根结底，模型使用了什么技术，纸面成绩有多高，事实上，每个人都更加关注模型是否好用，是否实用。

而且一直以长文本著长。 Kimi ，现在长文本，强化学习双手抓，也是调整工具特性慢慢向客户需求靠拢的表现。

归根结底，当技术不再高高在上，可以帮助我们解决实际问题时，才算真正完成了它的使命。

发文：西西

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

「打包式」滑雪，当代大学生的雪季收割机

博通开启了AI基础设施2.0时代？另一批美股公司创下新高，透露出这些信号

男子骑电动车被狗追，撞树当场死亡！狗主人被判20%的责任

十二月十七日，宽基指数ETF净流入69.46亿元

十二月十七日，行业主题ETF净流入11.32亿元

项目推荐

康老板 · 氧疗堂