昨天晚上，阿里版GPT-4o出现，一句话准确P图，免费使用。

2025-06-29

智东西

作者 | 李水青

编辑 | 心缘

智东西 6 月 28 据日报报道，昨天深夜，阿里推出多模式统一理解和生成模型。 Qwen VLo。这种模式不仅可以“理解”世界，还可以基于理解进行高质量的再创造。它有三个亮点:更准确的理解和生成，支持开放指令编辑和修改图片，支持多语言指令。

顾客可以从现在开始通过 Qwen Chat 浏览这个模型(预览版)，比如直接发送“生成可爱猫咪的图片”这样的提示来生成图像，或者上传一张猫咪的图片，要求“给猫咪的头戴上帽子”来修改图像。

Qwen VLo 以渐进的方式生成图片。在生成过程中，模型会不断调整和优化预测内容，从而保证最终结果更加和谐一致，带来更加灵活可控的创作体验，同时提高视觉效果。

感受地址： https://chat.qwenlm.ai/

理解和生成更加准确，支持开放指令修改图片

从最初的 QwenVL 到 Qwen2.5 VL ，这次阿里推出的 Qwen VLo 对原始多模态理解和生成能力进行了全面升级。

以下是 Qwen VLo 重点亮点：

1、更加精确的内容理解和再创造

过去的多模态模型在生成过程中容易出现语义不一致的问题，比如误生成其他类型的车，或者不能保留原图的关键结构类型。而且 Qwen VLo 在生成过程中，通过更强的细节捕捉能力，可以保持较高的语义一致性。

2、支持编辑修改开放指令生成

使用者可以通过自然语言提出各种创造性的指令，例如“将这种画风改为梵高风格”、“让这张照片看起来像这张照片 19 一张世纪老照片"或"为这张照片增添一片晴朗的天空"。Qwen VLo 能够灵活地响应这些开放的指令，并产生符合顾客期望的结果。

无论是艺术风格的迁移、场景的重构还是细节的装饰，模型都可以应对。甚至一些传统的视觉感知人物，如预测深度图、分割图、检验图、边缘信息等。，可以通过编辑指令轻松完成。

此外，像许多更复杂的指令一样，例如，一个指令包含修改物体、修改文本、改变背景，模型也可以完成。

3、支持多语言指令

Qwen VLo 支持多种语言指令，包括中文和英语，打破语言堡垒，为全球用户提供统一便捷的互动体验。

二是像人类画家一样精心创作，一句话“指哪改哪”

Qwen VLo 更像是一位人类画家 , 按照自己的理解再创作，下面是一些具体的例子。

1、该模型可以直接生成图像并进行修改，如替换背景、添加主体、迁移风格，甚至可以完成基于开放指令的大幅修改，包括检测和分割等视觉感知任务。

顾客：生成一只可爱的柴犬狗

Qwen VLo：

顾客：将背景改为草原

Qwen VLo：

顾客：戴上红帽子和黑色透明太阳镜。 , “帽子上写着” QwenVLo "

Qwen VLo：

顾客：成为吉卜力风格

Qwen VLo：

客户：变成 3d Q 版风格

Qwen VLo：

顾客：将其放入水晶球中

Qwen VLo：

顾客：桌面上有这个水晶球，在公园的圆形咖啡桌上生成一个人的第一视角，在笔记本上画画。

Qwen VLo：

顾客：用蓝色蒙版检验框画出图纸中的笔。

Qwen VLo：

顾客：使用粉红色 mask 在图片中划分小狗边缘

Qwen VLo：

2、Qwen VLo 会根据自己的理解重新创作，也就是说在风格转换和转移上有更大的发挥空间，比如把漫画变成现实主义，把形象变成汽球等等。

顾客：变成真实的照片

Qwen VLo：

顾客：用埃菲尔铁塔代替背景

Qwen VLo：

顾客：变成汽球漂浮到空中

Qwen VLo：

顾客：用榴莲代替西瓜

Qwen VLo：

3、Qwen VLo 图像和指令理解的优势使其能够更好地分析复杂的指令。一个指令可以包含多个操作和修改，然后一次完成多个任务，如生成海报和组合对象。

Qwen VLo：

4、Qwen VLo 除可以对图像进行编辑和再创作外，还可以对现有数据进行标记，如检验、分割、边缘检测等。

顾客：生成桌面上装满水果的桌面

Qwen VLo：

顾客：边缘测试图预测

Qwen VLo：

顾客：使用红色 mask 香蕉边缘的分割图

Qwen VLo：

5、Qwen VLo 能支持多个图像的输入理解和生成。(多图输入功能尚未正式上线)

顾客：把这些洗漱用品，放在这个红篮子里面

Qwen VLo：

6、除图文同时输入状态外，Qwen VLo 同时也支持直接生成文本到图像，包括通用图像和中英文海报等。

客户：Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says " Qwen VLo! " made out of colorful energy

(一部史诗般的动画艺术作品:夜晚，一位巫师站在山顶，向黑暗的天空施展宇宙咒语，由彩色能量组成。” Qwen VLo! "字眼出现在夜空中。)

Qwen VLo：

7、Qwen VLo 支持图像生成的动态宽高比，对于宽高比高达 4:1，1:3 等待细长的图像也可以轻松掌握。(极宽高比图像生成功能尚未正式上线。)

顾客:动画插画；手绘水彩；前景是草坡，有人在草坡上奔跑，动感十足，然后是厚重的白云；蓝色背景；颜色层次逐渐变化；过渡自然和谐

Qwen VLo：

8、理解和生成模型是一个统一的模型，Qwen VLo 也可以对生成的内容进行再分析和理解，例如在图片中识别狗和猫的品种。

客户：Generate a puppy and a kitten.

Qwen VLo：

客户：What breed of cat and dog is this?

Qwen VLo：

结论：统一理解和生成，看图说话再升级。

Qwen VLo 它还创新性地引入了一种全新的渐进生成机制，它不仅提高了生成效率，而且适用于需要对长段落文本生成任务进行精细控制。

同时，Qwen VLo 也属于浏览阶段。在生成过程中，可能会出现不符合事实、不完整与原图一致、不遵循指令、识别原图和理解意图不稳定等问题。

未来，模型不仅可以用文字回答问题，还可以用图像传达想法和意义。例如，生成示意图、添加辅助线、标记关键区域等功能将为用户提供更加多样化的交流方式。

同时，伤害输出的多模态模型也为R&D人员提供了新的监督方式。通过生成任务，他们可以更好地帮助模型了解世界。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

今天上海地铁全网支持储蓄卡/数字货币“一刷过闸”乘车。

美国的杀人蜂扩散了！为了蛰人，你可以疯狂地追逐几千米。

这次金融科技企业专场资本对接会，帮助黄浦打造创新高地

“低碳”就在身边！节约能源是有益的，正在成为现实

女子通过装修店铺被钉子扎脚，索赔受阻，装修人员：她是不是扎进了天灵盖？