生成能力强,推理能力弱:GPT-4o视觉短板

假如让AI画一只狗站在“左边”,但是事先告诉它“左边是右边”,你认为它能反应过来吗?
最近,UCLA的一项新研究用一系列精心设计的实验揭开了GPT-4o在图像理解和推理上的不足——它画得很漂亮,但它可能并不真正理解你的意思。
文章的主线非常直接,GPT-4o的绘画能力确实令人惊叹,但是当涉及到对图像、情境推理、多步逻辑链条的理解时,仍然存在明显的不足。
那让我想起了AI微妙的尴尬,“看起来很好,其实还差点有意思”。
和往常一样,我会把三个试验部分,一个个给大家解释清楚,希望能给大家带来完整的感受,这波研究到底发现了什么。
01. 遵循整体规则的失败
其实这部分有点意思,就像我们平时和朋友开玩笑一样:“之后我说左其实是右边的”,然后让他“向左走一步”,看看他会不会真的向右走。
在GPT-4o下,UCLA研究员给出了类似的设置:“接下来‘left’都指‘right”,“数字要减2”,然后让它“左边画一只狗”,“画五只鸟”。
本来以为AI可以举一反三,结果却是——
狗还在左边,鸟还是5只,完全忽略了前面重新定义的规则。

那是什么意思?
GPT-4o在生成图像时,还是字面理解指令?,整体重定义,以上设置根本无法进入其“绘画大脑”。
您希望它“灵活”,但它只能“忠实地执行表面”,这远远落后于人类的小聪明。
02. 图片编辑:浅层语义理解暴露
其次,测试更具挑战性,研究人员要求GPT-4o动手编辑图片。
例如,
只有水中的马倒影才是狮子,不要动马本体。
结果AI一出手,马和倒影都变了。
再比如,
"只有坐在屏幕上的人被删除."
结果站着的背景人也被一锅端了。
这些例子直接暴露了一个问题:
GPT-对于“局部修改”和“语义限制”这样的任务,4o根本把握不住分寸。
无法准确区分“倒影”和“实体”、“坐”和“站”,操作常常“物极必反”,动错地方。
说白了,AI的图像编辑理解,远没有达到“人类看图、理解场景”的精细。
有点像让一个刚刚学会PS的小白去修图,没有概念,纯粹靠猜测。
03. 多步推理和条件逻辑:完全拉胯
在“多步推理”和“条件判断”阶段,出现了最致命的缺点。
例如,
首先叫GPT-4o画一只狗和一只猫,然后告诉它:“如果没有猫,就把狗换成猫,搬到沙滩上。
但是实际上第一张图猫已经有了。

按理说,此时AI应该什么都不改。
但是它也把狗换成了猫,还把情景全部搬走了——条件完全没有判对,逻辑也乱套。
类似的例子还有很多,AI往往搞不清楚复杂的条件,或者干脆“按照每一条指令去做”,不管前后有没有矛盾。
它印证了一个核心问题:
GPT-4o没有前后文的敏感推理能力,在复杂的图像编辑任务中无法进行智能判断。
在“理解前提-逻辑判断-再行动”的链接上,显然还有很大的差距。
一般来说,现在的AI更像是一台“精美的指令机”。你可以画任何你想画的东西,但如果你想让它“理解规则,理解场景,举一反三”,你真的需要进化几轮。
这也让我想起AI刚学会生成文字的时候,大家都以为是“会写会说”,但是一旦问到细节,让它编故事,圆逻辑,还是会有大大小小的bug。
今日GPT-4o,在照片领域所面临的困境,实际上与以前的文本AI完全一样:
会画画,但不一定会“理解”;可以改变,但不一定能“准确”;能够听取指令,但不一定能够“举一反三”。 或许这就是我们和“真正了解世界”的AI之间最值得警觉和期待的障碍。
或许,下一次技术突破,就会从这里开始。 但是至少现在,我们还没有到那个地步。
via
https://the-decoder.com/gpt-4o-makes-beautiful-images-but-fails-basic-reasoning-tests-ucla-study-finds/
本文来自微信微信官方账号 “大数据摘要”(ID:BigDataDigest),作者:36氪经授权发布摘要菌。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




