我让最强 AI 推理模型陪我玩《王者荣耀》,我这黄铜直接起飞。
依靠吉卜力,OpenAI 另一个大风头。但事实上,在过去的一周里,许多模型都发布了版本更新,包括 DeepSeek,Gemini,Qwen。每个人都在推理上得到加强,并得到多模态的支持。

每一次都有新的推理模式升级或出现,如何领略它们的能力是非常棘手的。说白了,总是让他们做题也没什么意义。
在周末玩游戏的时候,我突然意识到:游戏不就是一个很好的实验场景吗?
更新版本齐全,推理能力更上一层楼。
Qwen 全新版本的视觉推理模型于周五凌晨发布。 QvQ-Max。不仅能够「看懂」图片和视频中的内容,也可以结合这些信息进行分析、推理,甚至给出解决方案。

Gemini 这儿,就是三月 25 日推出的 2.5 Pro Experimental,推理、代码敲击和多模态理解都得到了全面提高。数学和科学基准测试(例如 GPQA 和 AIME 在2025年中排名超过排名 OpenAI 的 03 mini。

含有 100 一万个标记前后的窗口可以理解来自不同信息源的庞大数据集和处理复杂问题,包括文本、音频、图像、视频甚至整个代码存储库。
再说一遍:对于模型来说,推理能力不仅仅是解决数学问题。更重要的是,使推理成为底层能力,造福模型在整个形态任务中的处理,包括跨模态认知。。
理论上,这就是为什么每个家庭都非常重视推理能力。 AGI 真正的基石。
怎么,玩游戏难吗?
游戏是一个「既不复杂也不复杂」评估场景。不复杂的原因很简单:现阶段模型不能动手,所有的操纵都要由玩家自己来操纵。
「挺繁杂」而且,这是一种多模态材料,文字、图像、视觉效果一应俱全。

一个潜在的应用场景是,让模型 可以通过阅读游戏记录,根据相应的副本,制定战斗计划。也就是说,不仅要了解所有的材料,而且要有分析和操作的能力。
让模型一下子做出攻略,步子迈得有点太大了。首先要看懂游戏录屏,并且整理好数字,这并不难。
给 Gemini 和 Qwen 同样的游戏录屏都上传了,然后让他们整理出所有的伤害值。

这儿出现了一些差异:Gemini 更好地理解模糊指令,我只需提一下。「整理成表格」就好,但 Qwen 要更加清楚,否则它最后开具的表格,任何款式都有。
来自游戏样本的选择 b 站 up 在《回归未来:1999》中,主@司马玄清录制了一段屏幕。 主要原因是, 这是一款卡卡牌游戏,方法简单。 而且这段视频背景清晰,数值可以完全呈现出来,而且还可以用文字来展示使用的技巧。

上传开始,Qwen 成功接受并开始处理,不需要太多时间。Gemini 上传非常耗时,总体上是两三分钟左右,上传后还需要30秒左右的分析。
两边都提供了思维链,Qwen 给予中文,Gemini 默认情况下,思维链是英语,而且很长。

思想链条的不同也体现在最后给出的表格上,从第一眼看,两边的数值是不同的。
经过审查发现,Qwen 是每五秒统计一次,包含图片在阅读秒时显示的内容,说实话,这种思维的准确性会有问题。

Gemini 长时间的表格,虽然没有明确的时间戳,但对伤害值的统计准确率要高得多,粗略地看,几乎没有编造的数字。

仔细检查一下,Gemini 抓取值的准确性的确超出了预期,首先它可以持续下去,「观看」视频内容并进行分析。
同时,我们也可以考虑多个行动主体。比如我们受伤的时候,也可以区分哪个角色受到了攻击和伤害。随机抽查几个数字,准确率相当高。

当然也不是100%准确:比如连击抓不到,玩家在进行一系列攻击时,只能抓住第一个记录。

当试图总结多次攻击的总值时,也不允许-总结得很好,下次不要总结。

总体来看,Gemini 可以有准确性 65 分,Qwen 大概是 55 分。后面还让他们分别总结所涉及的特殊技能:

两边总结出不同的想法,Qwen 按技能类型划分,主要参考卡面的文字展示。

Gemini 就是以视频为主,计算出战斗中的出现方法,将角色融合在一起。
必须说,视频材料的消耗 token 就像玩一样,五分钟的视频光已经传上去了。 9 万 token 了。幸亏 Gemini 还算大方,每次谈话的起点都是一百万,经得起花。
前置工作铺垫好了,理论上应该对游戏有所了解,那么,「假如我想在更短的时间内取得胜利,如何调整进攻方法和技能卡的使用?」
因为翻译的原因,技能和人物的名字相当混乱。暂且不说,两边都给了一个像样的人物。「攻略」,特别是 Qwen。

Gemini 还可以出攻略,比较不详细。

综合能力可能,强控制游戏仍然是一个挑战
总而言之,卡牌游戏总是比较简单的,无论是对玩家还是对玩家来说, AI。这种准确性已经令人担忧了,涉及到操纵的话,还能跑吗?
所以下面我找到一段王者荣耀的视频,看看这两个模型的表现。

这次两个模型都开始一头雾水。Qwen 给出了一个整理,但是光看着就行了。 bug 满满的,而且没有时间戳甚至很难检查。

Gemini 或者按照之前的方式,给出了一个详细的表格。但是根据时间戳的对比,数字也很乱,在备注中也提到很难区分一些伤害。

甚至在很多数字不断冒出来的时候,干脆直接钓鱼,写一篇文章「较小数字」只是混过去了。

如果不能准确提取现有数据,后面的推理分析就会非常不乐观。但是我还是浅问了一下。「根据现有情况,分析本局的胜率和败率」。
Qwen 相对平淡无奇,能全面阅读视频中所有相关内容,如等级、金币数等。
意外的是 Gemini,它不仅读取了视频中的信息,而且读取了音频:这个视频是同事们现在玩的一个人机,录制的时候环境很嘈杂,居然可以被打。 Gemini 识别出来。在人机对战中,只要不出错,就是稳赢。
有点东西。
国王的难度有点大,这种表现也不算出乎意料。但是总的来说,两种模式的表现都比想象中要好得多。
尽管两边的主力不同,Gemini 强调推理,Qwen 强调视觉,但都反映了一开始所说的:基于推理能力,全面造福不同维度的能力。
这也能在 Qwen QvQ-Max 在发布报告中,团队谈到了为什么要在推理中投入视觉:传统的 AI 大多数模型依赖于文本输入,例如回答问题,写文章或生成代码。但是在现实生活中,许多信息并不是用文字来表达的。
图片、图表甚至视频都包含信息。一张图片可能包含丰富的细节,如颜色、形状、位置关系等。,而这些信息往往比文字更直观、更复杂。
而仅仅只是「看到」这些信息,还远远不够,。唯有激发推理能力,「看懂」一切信息,也可以进一步分析,一切都有更丰富的应用意义。
Gemini 和 Qwen 的表现为「模型即商品」又增加了一个砝码,当推理能力达到更高水平时,泛用性进一步提高,「通用型智能」最初的形态,只是时间问题。
本文来自微信微信官方账号“APPSO”,作者:APPSO,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com



