明查·实验室:大模型能否识别AI生成图片?

2025-11-21

【编者按】


生成式人工智能让人类进入机器生成内容与人类原创内容深度交织的世界。


以Sora、Midjourney为代表的AIGC模型,展现了通向通用人工智能(AGI)的想象力,也让虚假影像快速涌入公共空间,而人类识别速度远落后于造假节奏。


在此背景下,“以AI辨AI”成为可行思路。我们好奇,人工智能能否辅助核查员和读者完成核查工作?大模型如何定义“真实”的边界?


为解答疑问,“澎湃明查”发起挑战,将ChatGPT、Gemini、DeepSeek、豆包等热门模型进行测试。


背景


大语言模型的“读图”能力进步显著。


从OpenAI的GPT - 5,到xAI开发的Grok,再到国产模型豆包,如今的人工智能大模型能判断图像中的文字、场景和情绪,并给出接近人类水准的描述。


AI似乎有了“眼睛”,但它们有人类的头脑吗?会被图像欺骗吗?能判断图片是否经过编辑、识别AI生成的图片吗?


带着这些问题,我们对ChatGPT - 5、Grok - 4和豆包(Doubao)进行测试。准备了10张图片,其中5张为AI生成图像,5张为实际拍摄照片(含2张经过编辑的图片),均源自澎湃明查过往核查案例。


针对每张图片,向大模型提三个问题:


这张图片是真实拍摄的,还是经过后期编辑的?


这张图片是由AI生成的吗?


这张图片是否呈现了网传说法中所描述的内容?


问题背后的目的是验证人工智能能否稳定、真实地对图片使用背景做出准确判断。以下是测试结果。


明查


是真懂,还是幻觉?


AI会说谎,大模型功能变强,但也更容易产生“幻觉”。例如,OpenAI o3在运行PersonQA基准测试时,“幻觉”概率达33%,比o1高出两倍多,o4 - mini的“幻觉”发生率达48%。


为防止人工智能是“蒙对”而非真懂图片,我们先评价模型回答的一致性(鲁棒性),采用“变着法子提问”的方法。若模型能提供统一、稳定的回答,就是“立场坚定”的好模型。


3款模型中,国产大模型“豆包”表现最靠谱。回答与10张图片相关的30个问题时,豆包回答前后一致,即便答错也坚持错误答案。


相对不可靠的是Grok。识别一张声称显示“桦加沙台风前被‘五花大绑’的雕塑”的AI生成虚假图片时,Grok先查证可能是假图,但变换提问方式后,又给出不同说法。


即便如此,Grok对10张图片中8张的判断有逻辑一致性。


ChatGpt - 5答错一题。一张反映“在立陶宛维尔纽斯大教堂参与弥撒、为失踪士兵祈祷的人们”的真实照片,模型先说图片“经过后期合成处理”,后又说“看起来是真实拍摄的”。


测试后为三款大模型赋分,“豆包”因表现稳定获满分。


魔法能打败魔法吗?


本轮测试的另一个目的是检验大模型判断AI生成图片的能力。


理想情况下,希望模型准确判断AI生成图片,不误判非AI生成图片。


测试发现,对于有明显AIGC特征的图片,如存在畸形手指等不合理细节,模型较易分辨。例如,评估“西藏地震中被压在废墟下的小男孩”一图时,所有模型都能准确识别为AI生成。ChatGPT给出“皮肤与质地异常”等判别理由,Grok提示左手“有畸形迹象”并提供参考照片。


对于经Photoshop等软件编辑的真实图片,或AI生成后有编辑痕迹的图片,大模型很难区分。例如,一张展示“太平洋上漂浮着的塑料垃圾”的图片,ChatGPT和Grok都判为AI生成,实际是两张真实照片拼合而成。


ChatGPT将这张图片判为AI生成,而它是后期技术拼合的真实照片。


特别提到豆包,它似乎通过所有图片考核并提供依据,但依据主要来自中文网络。补充测试中,对于未在中文网络发表的AI生成图片案例,如网传“民众举着缩写为JIBA的牌子为日本首相高市早苗应援”的图片,豆包无法准确判断,这可能意味着其信息检索、整合能力强于读图、判别能力。


豆包将这张AI生成图片判断为真实图片。


综合以上线索,对3款模型的AI识别能力评价如下。


综合能力哪家强?


最后对3款大模型的综合辨图能力打分。这不是简单加总上述评分,而是审视对3个问题的回答,依据能否准确判断图片真实性并提供翔实依据进行综合评价。


3款模型中,豆包对图片背景和语境判断较准确,回答一致性好。但判别依据简短,像核查稿件概述,缺乏详尽核查步骤和进一步核查提示,对未成稿图片案例判断不准确。


相较而言,Grok的专家模式会详细呈现思考过程,引用真实图片对比,利于激发用户思考。但图片判断准确度和幻觉度方面,现阶段答案不可靠,只能选择性参考。


总体上,ChatGPT图像辨识能力突出,判断可靠,能清晰展示推理路径。不过,它在各评价维度表现并非完美。对于借助AI判断图片真伪的用户,理解模型“怎么想”比相信“怎么说”更重要,模型结论仅供参考,最终判断需人类完成。


海报设计 白浪


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com