AI大模型看手相，图片视频加持深度思考，阿里QVQ-Max“上帝是神”

2025-04-03

阿里又发了一个有趣的大模型。——

QVQ-Max，视觉推理模型的第一版，可以直接深入思考任何图像或视频。

举一个有趣的例子

，上传你的手掌，然后点击Thinking，QVQ-Max可以给你看手相：

能看到，经过深思熟虑，QVQ-Max开始逐步分析手掌上的线条和其他特征。

包含心线、头线、生命线等重要线条的分析，以及钻戒手指上金戒指的寓意。

这个例子只是一个更有娱乐性的例子。

假设你一口气给QVQ-Max“喂”多张图片，同时也能进行深入思考：

这些图片描述了哪些风景？它们之间的关系是什么？

经过一次思考，QVQ-Max准确地区分了两张图片——都是西湖的风景，但是一个是春天和夏天，另一个是冬天。

再如数学推理，同样是给它“喂”一张图片，甚至省去了提问：

思考之后，QVQ-Max找出了数字之间的规律，最后给出了正确的答案：10。

并且直接上传一段手绘简笔画视频，并附上一句话：

对视频进行分析，将视觉内容与文字相结合，并为视频中的镜头创建生动有趣的字幕。

最后，QVQ-Max仍然稳步完成了任务。

网民们看了看，也是麻溜去试了试。

但这次，QVQ-Max有点翻车——路飞是对的，但是这个乔巴…

啊，这两天被OpenAI了。 GPT-4o图像产生了带火的吉卜力，网友们也跟上了：

所以QVQ-Max的图像视频深入思考实力到底是怎样的，我们自己来尝试一下。

实测QVQ-Max

先来测试一下QVQ-Max看图解数学题的能力。

主题如下：

接着我们提问：

这个问题的答案是什么？

经过深入思考，QVQ-Max不仅准确地识别了手写的问题，而且给出了正确的答案：2。

刚刚Qwen正式给出了一个看手相的例子，这次我们再来“喂”下这张图：

这就是问题：

这是什么？

嗯，是比较全面的星盘介绍。

下一步，我们将重新测试视频推理，例如使用Anthropic最新发布的一个例子：

如果把视频中的背景音刨掉，单看内容，还是比较抽象的。

对此，QVQ-Max给出的理解是：

从观察到推理

除效果外，虽然Qwen团队没有发表相关论文，但是对于背后的技术亮点，团队还是简单介绍了一下。

第一，团队在MathVision这一benchmark(汇集了各种困难的多模态数学)进行了一些测试：

结果表明，通过调整模型thinking的最大长度，模型在MathVision上的准确性将不断提高。

此外，团队还总结了QVQ-Max的三个能力特征。

包括分析图片的能力，无论是复杂的图表还是日常生活中轻松拍摄的照片，都能快速识别关键元素。比如它可以告诉你一张照片里有什么物体，有什么文字标志，甚至可以指出一些你可能忽略的小细节。

仅仅识别图片中的内容是不够的，QVQ-Max还可以进一步分析这些信息，并结合背景知识得出结论。

例如，在一个几何问题中，它可以根据标题附带的图形来推导答案；在一个视频中，它可以根据图片内容推断下一个可能的情节。

除分析和推理外，QVQ-Max也可以做一些有趣的事情，比如帮助你设计插图，生成短视频剧本，甚至根据你的需要创建角色扮演的内容。

如果你上传一份手稿，它可能会帮助你成为一个完整的作品；上传一张日常照片，它可以成为一个犀利的评论家和占卜者。

值得注意的是，QVQ-Max是免费的，有兴趣的朋友快去试试吧~

感受地址：https://chat.qwen.ai

参考链接：

[1]https://qwenlm.github.io/zh/blog/qvq-max-preview/

[2]https://x.com/Alibaba_Qwen/status/1905342260100956210

本文来自微信微信官方账号 “量子位”（ID：QbitAI），作者：金磊，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

今天化工板块领跌，上证指数半天下跌0.71%

游戏板块企稳反弹，游戏ETF半日成交近4亿元

再创新高，多家银行宣布：上涨

亚太市场集体暴跌，A50直线下跌，发生了什么事？

价格上涨一年后，康师傅大瓶冰红茶正从便利店“消失”

项目推荐

康小虎 · 健康小屋

毛加健康

康老板 · 氧疗堂