可以看风水,夸我有趣,Kimi现在都这么野吗?
最近,差评君发现了一个新的东西。
喂给 AI 一张图片,它可以推断出一个人的性格。
单靠歌单,就可以将人近期的心理状态推断为七七八八。
而且这一切,都来自 Kimi 最新的 k1 视觉思维模式之手。
不,距离上次数学模型的推出还有一段距离。 k0-math 打榜 o1 才一个月, k1 很快就出现了。
当然,这个 k1 可以不只是像开头那样,只看图片分析性格那么简单。
上次咱检测 k0-math 当时,我已经看到了。 " 做题家 " 能力,那做题的思考过程让差评君看得一愣一愣。只是遗憾的是,有些绕逻辑的数学题和几何题,多少有点差。
但这次的 k1 有一种说法,既有推理能力,也有视觉能力,这意味着你可以直接拍照上传答案,并声称你可以在数学、物理和化学上打平甚至超越。 Open AI 的 o1 。
那么如果这样比较的话,我们就可以起劲了。碰巧, k1 现在新模型也不需要等待内测, App 而且网页版都可以用,话不多说,我们直接打开。
上去,扔掉 K1 一个今年高考的几何题。
首先, k1 对于题干的解读充分细致,也知道自己的理想究竟是什么。
余弦定理也考虑到了题目给定条件中可能涉及的问题,类似于我们在解决问题时的思维。 a ² b ² − c ² =2ab ,立即将余弦公式联想起来。 c ² =a ² b ² -2ab · cosC 。
然后根据公式和条件继续推导,很快就能找到角度。 B=60 °。
向上滑动查看更多
第( 2 )题目有点难,但是差评君仔细检查了一遍又一遍。 k1 解决问题的过程,思路和解决方法都没有问题,最后边长。 c=2 √ 2 答案也是正确的。(因为这个问题 k1 思考的过程真的太长了,截图就不展示了。)
问同样的问题 o1 ,第一,就推理速度而言, o1 的 58s 已经输了。
如果正确率, o1 和 k1 打个平局,都做对了。
不同的是, o1 隐藏回答问题的方法,没有给出像像。 k1 如此完整的思考过程。
然而,有一句话,差评君对。 k1 这种模式模仿人类思维的方式,并不特别令人惊讶。因为上次 k0-math 这个模型已经让我震惊了一次,能够认识到自己的错误,并且会反复验证,很像写数学题的时候煞费苦心的我。
相比之下,这一次 k1 补短板方面更加出彩,上次, k0-math 初中翻车几何题我又拿了。 k1 试过一次,现在已经可以做对了,连高考的难度都不会发。
而我也发现, k1 不但擅长做数学题,物理题也不在话下。
向上滑动查看更多
接着,我又拿出一个逻辑稍微绕了一下的逻辑陷阱题试了试:西瓜的购买价格 50 元,售价 70 元,老板收了 100 元假币,最后损失多少钱?
这个问题打孔看起来很简单,但是网友对这个问题的回答那叫五花八门,有说亏损的说法。 150 的,有说 180 的,还有说 100 的。。。
让我们来看看连很多人类都无法理解的问题, k1 你能看到里面的陷阱吗?
而且,我还特意把这个问题写得很潦草,顺便也测了一下。 k1 视觉能力究竟有没有推广的那么神。
别说了,你真的别说了,这个模型 " 目光 " 的确不错。
就试题的正确率而言, k1 前半部分的分析首先得出一个损失。 100 块的答案,但是后来它否认了自己。
继续把假货币、零钱和成本利润综合考虑了这些复杂因素,终于想通了老板的损失。 80 元。( 正确答案是 80 元 )
向上滑动查看更多
这种逻辑能力,的确有点强。
包括我在行测中给出的几个类比推理题。 k1 做到了,尽管逻辑分析的路径与答案不同,但是最后的答案是正确的。
向上滑动查看更多
总而言之,经过这次检测,差评君发现了。 k1 会思考有逻辑,眼睛好使智力也高, Kimi 这 " 做题家 " 这个名字算是坐实了。
但除做题外,这次我还探索了更多花里胡哨的玩法。
处理数据,看报告没什么意义, k1 这个模型不会按照图片来推理,那么想要辨别古钱币也应该有一手吧?
差评君特意从网上找到了一张民国时期银圆的照片,两个银圆上假下真,发给他们 k1 ,浅浅来一把 " AI 版听泉鉴宝 " 。
图源小红书用户 @今天的古董(公博代理收评)
k1 不但知道钱币是民国时期的,而且对于钱币的各种细节 kuku 一次导出,最后居然真的看到上面这个是假币。
让我们再发一张房间的图片,让我们 k1 看看 " 风水 " 。
什么 " 气口 " 、对称布局,能量平衡。。。说得好听点,甚至真的给出建议,让我们把床换个位置,定期修剪植物,换个更简单的吊灯。
向上滑动查看更多
吃饭时给 k1 拍一张照片,这顿饭摄入了多少卡路里也算清楚了。
向上滑动查看更多
但最让我感到亮眼的,还是 k1 看图猜影片的能力。
我给了它一个《 七宗罪 》这部电影的截图,没有台词,只有画面,对于很多没看过这部电影的人来说,很难猜到。
一开始看 k1 分析原本以为这个大概率会变黄,结果下一秒就来了。 " 拍摄角度和色调让我想起了大卫。 · 芬奇的影片 " ,截图中的场景也被推断出来了。《 七宗罪 》其中一个场景。
的确太强了。。。
即使是一些晦涩的梗图也丢失了。 k1 ,还可以一本正经地解释笑料到底在哪里。
尽管有点过分解读的嫌疑,但是几乎所有的大概意思都是 get 到了。
这么说吧,基于 k1 视觉和推理能力,做题都是基操,只要脑洞够大,还能解锁更多的玩法。
而 k1 这一能力,很大程度上要归功于一个名字。COT ( Chain of Thought )思维链的技术。
大概意思是,模型在输出答案之前,模仿人脑的思维方式,拆解复杂的任务,然后一步一步地处理。该技术可以提高模型的智商。
另一方面,借助于加强学习技术,也使模型在不断试错的过程中学会进化,从而达到最佳效果,就像训狗一样。
对于为啥 Kimi 将率先选择数学这一场景作为推理模型的起点,我认为,和我们人类学好数学锻炼思维,是一个道理。
在模型 " 学好数学 " 在此基础上,将这种逻辑判断的能力运用到物理、化学,甚至我们日常生活的方方面面,直到我们最终真正了解这个世界。
这条基于强化学习技术的路径,在数据达到顶峰的前提下,也许可以使模型达到更好的效果。
但归根结底,模型使用了什么技术,纸面成绩有多高,事实上,每个人都更加关注模型是否好用,是否实用。
而且一直以长文本著长。 Kimi ,现在长文本,强化学习双手抓,也是调整工具特性慢慢向客户需求靠拢的表现。
归根结底,当技术不再高高在上,可以帮助我们解决实际问题时,才算真正完成了它的使命。
发文:西西
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com



