国产图像大模型再添开源新作,LongCat-Image实测连续编辑表现亮眼,中文渲染仍有提升空间

1天前
6B参数规模的生图模型跻身开源领域顶尖水平。


智东西12月8日消息,今日,美团正式推出并开源了图像生成模型LongCat-Image。这是一款参数规模为6B的模型,在图像编辑能力上达到了开源领域的顶尖水准,主要聚焦于文生图单图编辑这两大核心应用场景。



根据官方公布的基准测试结果,LongCat-Image主要与Seedream4.0、Qwen-Image、HunyuanImage-3.0、Nano Banana以及FLUX.1-dev等主流的开源和闭源生图模型进行了对标,其核心优化方向集中在“编辑可控性”和“中文文字渲染”这两项关键能力上。


在实际使用体验中,该模型在连续修改图片、风格变换以及材质细节呈现方面表现出色,但在面对复杂排版场景时,中文文字渲染依然存在不稳定的情况。在处理复杂UI设计、游戏界面生成等任务时,模型的审美也暴露出一定的不足,这可能与其不具备联网搜索功能有关。


在体验入口方面,美团也同步提供了多种使用途径。在移动端,LongCat APP已经支持文生图和图生图功能;在网页端,用户可以通过https://longcat.ai/进入图片生成入口进行体验。


对于开发者来说,LongCat-Image的模型权重和代码也已同步开源:


Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Image


GitHub: https://github.com/meituan-longcat/LongCat-Image


接下来,我们将详细了解LongCat-Image的模型结构、评测成绩以及具体的实测表现。


01.从模型结构到评测成绩,LongCat-Image以“编辑可控性”和“中文渲染”为核心发展方向


从模型设计角度来看,LongCat-Image采用了文生图与图像编辑同源的统一架构,并借助渐进式学习策略,在仅6B的参数规模下,实现了指令遵循精准度、生图质量与文字渲染三项能力的协同提升。



▲模型架构


这套训练方案并非从零开始盲目增加参数,而是基于文生图中期训练模型进行初始化,并在后续阶段采用文生图与指令编辑的多任务联合学习机制,以此避免编辑能力在后续训练阶段被削弱的问题。


在图像编辑能力方面,LongCat-Image在GEdit-Bench、ImgEdit-Bench等多个编辑类基准测试中取得了开源领域的顶尖成绩



▲客观基准测试性能对比


LongCat-Image通过引入多源数据预训练、指令改写策略以及人工精心标注的SFT数据,使得模型在应对复杂编辑要求时,更不容易出现风格偏移和结构失真的情况。


针对中文文字渲染这一长期存在的难题,LongCat-Image采用了覆盖8105个规范汉字的合成字形数据进行预训练,并在SFT阶段引入真实世界的文本图片来强化排版和字体泛化能力,在RL阶段还引入了OCR与美学双奖励模型共同进行约束,最终在ChineseWord评测中获得了90.7分的成绩,领先于现有的开源模型。


在真实感方面,LongCat-Image通过对抗训练和严格的数据筛选机制,刻意避开AIGC常见的“塑料感”纹理问题,并在RL阶段引入AIGC检测器作为奖励信号,反向引导模型学习真实世界的物理纹理和光影变化。


综合评测结果显示,在人类主观评分(MOS)维度上,LongCat-Image在文本对齐、视觉真实度与美学质量等多个子项上的表现已经接近Seedream4.0等商业模型的水平。



▲人类主观评分(MOS)对比



▲并列对比评估胜率(SBS)


在图像编辑任务的并列对比评估(SBS)中,LongCat-Image-Edit在综合质量与一致性这两项关键指标上,相对于NanoBanana和Qwen-Image-Edit等模型都取得了较高的胜率。


整体而言,LongCat-Image在图像编辑任务上已经接近部分闭源模型的水平,在文生图基础能力上也处于开源领域的头部阵营。


02.从漫画重绘到玩偶产品渲染,连续编辑表现稳定,中文渲染仍是待优化之处


从实际体验过程来看,LongCat-Image在“连续指令可编辑性”方面的表现较为稳定。我们直接使用近期热门的《疯狂动物城2》相关图片进行测试,在同一角色的基础上连续执行多轮修改指令。



▲参考图


指令:修改为像素风格作品。



指令:重绘为彩色,保留像素质感。



指令:图片角色重绘为模仿乐高积木主题的动物。



在漫画图像测试中,通过像素风、彩色像素重绘以及模仿乐高积木动物主题的连续重绘指令,模型能够保持角色结构稳定,同时完成风格与材质的多轮迁移。在多次修改过程中,人物轮廓和构图基本没有出现明显错误。


在此基础上,我们进一步尝试了电影海报的制作场景,使用同一角色图进行主视觉海报生成与多语言标题渲染测试。


指令:电影《疯狂动物城2》的宣传海报,海报的主画面是电影主角的精彩场面,主标题用艺术手写字体“疯狂动物城2”,下面附上英文名“Zootopia”,另外附上电影海报需要的其他小字,文字清晰可辨认。



在电影海报场景中,模型对参考图的继承能力较为稳定,无论是角色形象还是动态姿势,都能与原始图片保持较高的一致度,中英文标题的主标题表现也较为清晰。不过在“小字”区域,一系列细节文字仍然存在乱码与英文混杂的问题,这表明中文文字渲染在复杂排版场景下依然存在不稳定性。


进一步测试人物档案式中文海报时,模型可以正确渲染部分核心字段信息,但仍不可避免地出现中英文错位与局部乱码的情况。


指令:生成动画电影角色的人物档案式宣传海报,用文字体现以下信息: 尼克•王尔德(Nick Wilde),是一只在迪士尼动画电影《疯狂动物城》中出场的狐狸。 中文名:尼克狐尼克。 外文名:Nick Wilde。 原型:赤狐。 职业:从骗子到警察。 搭档:兔子警官朱迪。 经典台词:“伤了你的小心脏?”



在产品级渲染测试中,朱迪警官玩偶在影棚光、台灯暖光、自然光客厅与床品光照等多个现实场景下的质感表现相对稳定。短绒毛的细节、眼睛的高光反射、沙发布料与玩偶绒毛之间的材质对比都能够被较为准确地呈现出来,整体效果更接近商业产品渲染水平。



相比之下,在主流模型较为擅长的游戏界面生成场景中,LongCat-Image的短板更为明显。无论是卡牌游戏、射击游戏,还是MOBA类第一视角界面,整体风格都偏向十多年前的UI设计审美,与当下主流游戏产品存在明显的代差。


指令:生成一个卡牌游戏界面。



指令:生成一个射击游戏界面。



指令:生成一个英雄联盟的游戏界面。



指令:生成一个王者荣耀第一视角的游戏界面。



从本次测试结果来看,LongCat-Image在改图与产品渲染类任务中的可用性更高,而在游戏界面与复杂排版场景中的表现相对一般。


03.结语:开源图像模型开启“可控编辑”竞争,AI生图领域竞争愈发激烈


从LongCat-Image的整体定位来看,美团并没有试图通过更大的参数规模去直接挑战旗舰级生图模型,而是明确选择在可控性、连续编辑和中文渲染这几个方向上进行深入挖掘。


图像模型的竞争焦点,正在迅速向“能否真正融入设计、产品、品牌等具体生产流程”的实用能力集中。


本文来自微信公众号 “智东西”(ID:zhidxcom),作者:江 宇,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com