昨天晚上,阿里版GPT-4o出现,一句话准确P图,免费使用。
智东西
作者 | 李水青
编辑 | 心缘
智东西 6 月 28 据日报报道,昨天深夜,阿里推出多模式统一理解和生成模型。 Qwen VLo。这种模式不仅可以“理解”世界,还可以基于理解进行高质量的再创造。它有三个亮点:更准确的理解和生成,支持开放指令编辑和修改图片,支持多语言指令。
顾客可以从现在开始通过 Qwen Chat 浏览这个模型(预览版),比如直接发送“生成可爱猫咪的图片”这样的提示来生成图像,或者上传一张猫咪的图片,要求“给猫咪的头戴上帽子”来修改图像。
Qwen VLo 以渐进的方式生成图片。在生成过程中,模型会不断调整和优化预测内容,从而保证最终结果更加和谐一致,带来更加灵活可控的创作体验,同时提高视觉效果。
感受地址: https://chat.qwenlm.ai/
理解和生成更加准确,支持开放指令修改图片
从最初的 QwenVL 到 Qwen2.5 VL ,这次阿里推出的 Qwen VLo 对原始多模态理解和生成能力进行了全面升级。
以下是 Qwen VLo 重点亮点:
1、更加精确的内容理解和再创造
过去的多模态模型在生成过程中容易出现语义不一致的问题,比如误生成其他类型的车,或者不能保留原图的关键结构类型。而且 Qwen VLo 在生成过程中,通过更强的细节捕捉能力,可以保持较高的语义一致性。
2、支持编辑修改开放指令生成
使用者可以通过自然语言提出各种创造性的指令,例如“将这种画风改为梵高风格”、“让这张照片看起来像这张照片 19 一张世纪老照片"或"为这张照片增添一片晴朗的天空"。Qwen VLo 能够灵活地响应这些开放的指令,并产生符合顾客期望的结果。
无论是艺术风格的迁移、场景的重构还是细节的装饰,模型都可以应对。甚至一些传统的视觉感知人物,如预测深度图、分割图、检验图、边缘信息等。,可以通过编辑指令轻松完成。
此外,像许多更复杂的指令一样,例如,一个指令包含修改物体、修改文本、改变背景,模型也可以完成。
3、支持多语言指令
Qwen VLo 支持多种语言指令,包括中文和英语,打破语言堡垒,为全球用户提供统一便捷的互动体验。
二是像人类画家一样精心创作,一句话“指哪改哪”
Qwen VLo 更像是一位人类画家 , 按照自己的理解再创作,下面是一些具体的例子。
1、该模型可以直接生成图像并进行修改,如替换背景、添加主体、迁移风格,甚至可以完成基于开放指令的大幅修改,包括检测和分割等视觉感知任务。
顾客:生成一只可爱的柴犬狗
Qwen VLo:
顾客:将背景改为草原
Qwen VLo:
顾客:戴上红帽子和黑色透明太阳镜。 , “帽子上写着” QwenVLo "
Qwen VLo:
顾客:成为吉卜力风格
Qwen VLo:
客户:变成 3d Q 版风格
Qwen VLo:
顾客:将其放入水晶球中
Qwen VLo:
顾客:桌面上有这个水晶球,在公园的圆形咖啡桌上生成一个人的第一视角,在笔记本上画画。
Qwen VLo:
顾客:用蓝色蒙版检验框画出图纸中的笔。
Qwen VLo:
顾客:使用粉红色 mask 在图片中划分小狗边缘
Qwen VLo:
2、Qwen VLo 会根据自己的理解重新创作,也就是说在风格转换和转移上有更大的发挥空间,比如把漫画变成现实主义,把形象变成汽球等等。
顾客:变成真实的照片
Qwen VLo:
顾客:用埃菲尔铁塔代替背景
Qwen VLo:
顾客:变成汽球漂浮到空中
Qwen VLo:
顾客:用榴莲代替西瓜
Qwen VLo:
3、Qwen VLo 图像和指令理解的优势使其能够更好地分析复杂的指令。一个指令可以包含多个操作和修改,然后一次完成多个任务,如生成海报和组合对象。
Qwen VLo:
4、Qwen VLo 除可以对图像进行编辑和再创作外,还可以对现有数据进行标记,如检验、分割、边缘检测等。
顾客:生成桌面上装满水果的桌面
Qwen VLo:
顾客:边缘测试图预测
Qwen VLo:
顾客:使用红色 mask 香蕉边缘的分割图
Qwen VLo:
5、Qwen VLo 能支持多个图像的输入理解和生成。(多图输入功能尚未正式上线)
顾客:把这些洗漱用品,放在这个红篮子里面
Qwen VLo:
6、除图文同时输入状态外,Qwen VLo 同时也支持直接生成文本到图像,包括通用图像和中英文海报等。
客户:Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says " Qwen VLo! " made out of colorful energy
(一部史诗般的动画艺术作品:夜晚,一位巫师站在山顶,向黑暗的天空施展宇宙咒语,由彩色能量组成。” Qwen VLo! "字眼出现在夜空中。)
Qwen VLo:
7、Qwen VLo 支持图像生成的动态宽高比,对于宽高比高达 4:1,1:3 等待细长的图像也可以轻松掌握。(极宽高比图像生成功能尚未正式上线。)
顾客:动画插画;手绘水彩;前景是草坡,有人在草坡上奔跑,动感十足,然后是厚重的白云;蓝色背景;颜色层次逐渐变化;过渡自然和谐
Qwen VLo:
8、理解和生成模型是一个统一的模型,Qwen VLo 也可以对生成的内容进行再分析和理解,例如在图片中识别狗和猫的品种。
客户:Generate a puppy and a kitten.
Qwen VLo:
客户:What breed of cat and dog is this?
Qwen VLo:
结论:统一理解和生成,看图说话再升级。
Qwen VLo 它还创新性地引入了一种全新的渐进生成机制,它不仅提高了生成效率,而且适用于需要对长段落文本生成任务进行精细控制。
同时,Qwen VLo 也属于浏览阶段。在生成过程中,可能会出现不符合事实、不完整与原图一致、不遵循指令、识别原图和理解意图不稳定等问题。
未来,模型不仅可以用文字回答问题,还可以用图像传达想法和意义。例如,生成示意图、添加辅助线、标记关键区域等功能将为用户提供更加多样化的交流方式。
同时,伤害输出的多模态模型也为R&D人员提供了新的监督方式。通过生成任务,他们可以更好地帮助模型了解世界。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




