多模态大模型视觉能力全面落后:多数表现不及3岁儿童

01-15 06:12
多模态大模型的视觉处理能力虽远不及语言推理能力亮眼,但一项最新测试结果仍令人咋舌。

多模态大模型的视觉处理能力虽远不及语言推理能力亮眼,但一项最新测试结果仍令人咋舌。


1月12日,红杉中国xbench联合UniPatAI团队发布全新多模态理解评测集BabyVision,旨在精准评估大模型的核心视觉能力。


UniPatAI的技术论文显示,首轮测试结果表明,当前绝大多数顶尖多模态大模型的视觉任务表现显著低于3岁儿童水平,仅有一款模型勉强达到3岁儿童的基线标准。



这种巨大的表现反差其实不难理解,主要是因为日常中模型强大的语言推理能力掩盖了其视觉信息处理能力的短板。


通常,大模型面对图像问题时会用文字描述问题。虽然视觉信息转文字存在局限性,但模型能凭借强大的语言推理能力理解并解决视觉问题。不过需要注意的是,这并非真正的视觉能力,而是基于文字信息的推理能力。因此,一旦失去语言能力的支撑,大模型在视觉信息处理中的短板就会完全暴露。


01


多数测试模型视觉能力不及3岁儿童


基于此,UniPatAI团队为首轮测试用的BabyVision-Mini设计了20道视觉中心任务,严格控制语言依赖,所有题目答案均需完全依靠视觉信息得出。同时,团队还组织了3岁、6岁、10岁、12岁四个年龄段的儿童作为对照组参与测试。


结果显示,大多数顶尖模型的得分明显低于3岁儿童平均水平。唯一表现较好的Gemini3-Pro-Preview模型也仅勉强超过3岁基线,与6岁儿童相比仍有约20个百分点的差距。



以BabyVision-Mini中的“垃圾分类”连线题为例,要求将“塑料杯”“废报纸”“苹果核”分别通过路径连线到对应颜色的垃圾桶,正确答案为A-蓝、B-黄、C-绿。


三岁儿童仅凭本能就能从起点沿线追踪至终点,轻松完成作答;而表现最强的Gemini3-Pro-Preview虽写下大段“逐段追踪”的推理过程,最终仍给出A-绿、B-黄、C-蓝的错误答案。



随后团队将测试扩展到包含388道题目的全量BabyVision-Full评测,此时人类对照组的16位本科以上背景参与者准确率高达94.1%。


而大模型方面,在Mini测试中表现最佳的闭源模型Gemini3-Pro-Preview,在Full评测中的准确率仅为49.7%;开源模型中最强的Qwen3VL-235B-Thinking准确率不足22.2%,其他开源模型得分集中在12%-19%区间。


02


大模型视觉能力存在系统性缺失


UniPatAI的技术论文特别指出,这并非大模型单一维度的不足,而是在视觉能力的四大类别(精细辨别、视觉追踪、空间感知及视觉模式识别)上的全方位落后,表明大模型的基础视觉能力存在系统性缺失。



团队统计出模型面临的四大典型挑战:


第一类挑战源于“非语言细节”的缺失。人类处理拼图补全等任务时,能凭几何直觉感知边界对齐、微小凸起等像素级差异;而模型若将选项形状描述为“像钩子、有两个腿”等语言概括,细微视觉差异会被抹平,选项在token空间中变得“几乎一致”。




Gemini3-Pro-Preview在这道题中选择了D,而非正确答案B。


第二类挑战体现在轨迹追踪任务中,如上文中的“垃圾分类”问题。人类会锁定一条线并一路追踪至终点,而模型会将路径翻译成“左/右/上/下”的离散步骤,难以保持连续性。因此,遇到交叉点时容易出现路径分叉,从“跟随一条线”退化为“猜测终点”。


第三类是空间想象能力缺失。在三维方块计数、视角投影、遮挡结构判断等任务中,人类能在脑海中构建三维结构并变换视角判断,这是空间想象能力的体现;而模型依靠语言推理,但文字描述无法还原真实空间关系,最终导致漏掉隐藏块、搞错投影关系。




Gemini3-Pro-Preview按高度用数字标记方块,但错误忽略了右侧竖列后排标记为4的积木,最终计为前排平台的2,得出错误答案C。


最后一大挑战是图形规律归纳难题。此类题目要求从少量视觉示例中总结规则,人类会进行关系映射以确定变化规律,而模型往往关注图像的颜色、形状等属性,将“结构规则”误读为“外观统计”,导致迁移时出现规则幻觉。




阿里的Qwen3-VL-PLUS将图形拆解成8等分后,成功判断出棕色部分应在顶部,却看错了C选项。


研究团队认为,大模型普遍得分超低的核心原因在于测试集中许多题目具有“不可言说”的特性——无法在不损失信息的情况下被完整语言化。


人类只需通过指认、圈选、沿路径追踪等直觉方式解题,但模型必须将视觉信息压缩为token进行语言化处理,这一过程会丢失大量关键细节,最终导致推理失误。


不过这并非无解。研究团队通过让视觉推理“落地到视觉操作”,发现Sora2能一笔一划绘制出左上角鳄鱼的连线图像。



美中不足的是,Sora2仅画对了鳄鱼这一条线,其他模型则一条线都未成功。但未来或许可通过让模型进行绘画、临摹等方式推理,弥补文字推理缺失的视觉能力。


因此该团队表示:“很难想象一个视觉能力低于3岁儿童的机器人,能在真实物理世界中可靠地帮助人类。”团队认为,为推动多模态智能发展,未来的模型必须从根本上重建视觉能力,而非依赖语言推理。


本文来自微信公众号“观网财经”,作者:万肇生,编辑:张广凯,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com