AI大模型看手相,图片视频加持深度思考,阿里QVQ-Max“上帝是神”
阿里又发了一个有趣的大模型。——
QVQ-Max,视觉推理模型的第一版,可以直接深入思考任何图像或视频。
举一个有趣的例子

,上传你的手掌,然后点击Thinking,QVQ-Max可以给你看手相:
能看到,经过深思熟虑,QVQ-Max开始逐步分析手掌上的线条和其他特征。
包含心线、头线、生命线等重要线条的分析,以及钻戒手指上金戒指的寓意。
这个例子只是一个更有娱乐性的例子。
假设你一口气给QVQ-Max“喂”多张图片,同时也能进行深入思考:
这些图片描述了哪些风景?它们之间的关系是什么?
经过一次思考,QVQ-Max准确地区分了两张图片——都是西湖的风景,但是一个是春天和夏天,另一个是冬天。
再如数学推理,同样是给它“喂”一张图片,甚至省去了提问:
思考之后,QVQ-Max找出了数字之间的规律,最后给出了正确的答案:10。
并且直接上传一段手绘简笔画视频,并附上一句话:
对视频进行分析,将视觉内容与文字相结合,并为视频中的镜头创建生动有趣的字幕。
最后,QVQ-Max仍然稳步完成了任务。
网民们看了看,也是麻溜去试了试。
但这次,QVQ-Max有点翻车——路飞是对的,但是这个乔巴…


啊,这两天被OpenAI了。 GPT-4o图像产生了带火的吉卜力,网友们也跟上了:

所以QVQ-Max的图像视频深入思考实力到底是怎样的,我们自己来尝试一下。
实测QVQ-Max
先来测试一下QVQ-Max看图解数学题的能力。
主题如下:

接着我们提问:
这个问题的答案是什么?

经过深入思考,QVQ-Max不仅准确地识别了手写的问题,而且给出了正确的答案:2。
刚刚Qwen正式给出了一个看手相的例子,这次我们再来“喂”下这张图:

这就是问题:
这是什么?

嗯,是比较全面的星盘介绍。
下一步,我们将重新测试视频推理,例如使用Anthropic最新发布的一个例子:
如果把视频中的背景音刨掉,单看内容,还是比较抽象的。
对此,QVQ-Max给出的理解是:

从观察到推理
除效果外,虽然Qwen团队没有发表相关论文,但是对于背后的技术亮点,团队还是简单介绍了一下。
第一,团队在MathVision这一benchmark(汇集了各种困难的多模态数学)进行了一些测试:

结果表明,通过调整模型thinking的最大长度,模型在MathVision上的准确性将不断提高。
此外,团队还总结了QVQ-Max的三个能力特征。
包括分析图片的能力,无论是复杂的图表还是日常生活中轻松拍摄的照片,都能快速识别关键元素。比如它可以告诉你一张照片里有什么物体,有什么文字标志,甚至可以指出一些你可能忽略的小细节。
仅仅识别图片中的内容是不够的,QVQ-Max还可以进一步分析这些信息,并结合背景知识得出结论。
例如,在一个几何问题中,它可以根据标题附带的图形来推导答案;在一个视频中,它可以根据图片内容推断下一个可能的情节。
除分析和推理外,QVQ-Max也可以做一些有趣的事情,比如帮助你设计插图,生成短视频剧本,甚至根据你的需要创建角色扮演的内容。
如果你上传一份手稿,它可能会帮助你成为一个完整的作品;上传一张日常照片,它可以成为一个犀利的评论家和占卜者。
值得注意的是,QVQ-Max是免费的,有兴趣的朋友快去试试吧~
感受地址:https://chat.qwen.ai
参考链接:
[1]https://qwenlm.github.io/zh/blog/qvq-max-preview/
[2]https://x.com/Alibaba_Qwen/status/1905342260100956210
本文来自微信微信官方账号 “量子位”(ID:QbitAI),作者:金磊,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




