文生影像年底「考试」，带着即梦AI的字节跳动「交卷」

2025-01-03

2024年底，文生影像领域硝烟弥漫。

十二月初，OpenAI终于端上了Sora这道硬菜，最高分辨率1080P，20秒的时间，以及故事板、Remix等功能，无疑再一次搅拌了已经进入白热化竞争的文生影像武林。但是随后，竞争格局再次被刷新——谷歌发布了文生视频模型Veo模型它在指令遵循、镜头控制和画面质量方面都表现出惊人的表现。国内玩家也不会多让。即梦AI，背靠字节跳动强大的短视频基因，在上线后的四个月里经历了多次迭代，最终解决了AI生成图像的中文嵌入问题。

目前，随着影像叙事的普及，文生图/视频无疑成为AI应用的必争之地，竞争远未结束。不符合物理原则的AI生成视频，除了让人发笑之外，还反映了文生图像领域的诸多烦恼，如质量低、反应慢、操作复杂、伪影频发等。

与国内外其他主要文化图像玩家相比，即梦AI进入相对较晚，但足以让行业不可低估，也让用户对其抱有很高的期望。其实梦AI本身也有很大的欲望，喊出了“想象相机”的口号。

那么，自2024年5月推出以来，即梦AI有哪些看家本领呢？与包括Sora在内的国内外同类应用相比，它的基本功是什么？通过即梦AI，或者可以在AI应用中列出第一年在文化生活影像领域的字节跳动的成绩单。

一句话改图：简单，准确，

即梦AI在11月推出了“智能参考”功能，声称用户可以通过一句话实现零门槛改图，并且能够准确地获得预期效果。

例如，尝试改造流行的文物动作。选择兵马俑的照片，点击使用“智能参考”功能，输入简单的promt。：喝奶茶的兵马俑，短短几秒钟，原图就变成了一张左手拿奶茶的兵马俑图，可以看到图片的其他位置基本保持了原图的状态，没有变形，整个过程不需要额外的涂抹和边缘描述。

prompt：喝奶茶的兵马俑

再试试更复杂的改图效果。去掉原图中女生面前的玻璃。从效果图中可以看出，即梦AI对prompt的认知仍然非常准确，玻璃已经完全消除，原图的其他细节基本保留下来。

prompt：清除图片的玻璃渣

在多次测试中，我们可以看到，即梦AI的图像生成模型可以识别表情、情感、风格、成语等词汇，并且可以实现准确的任务执行。

就效果而言，目前即梦AI的改图功能可以改变风格、动作、表情、2D3D。、多种效果，如改装/换人、调整主体、改变场景等。与同类模型相比，覆盖面相对全面。

简单、准确、多样化的效果，可以满足C端大众用户在社交媒体使用过程中的大部分绘图需求，比如最近流行的经典卡通头像拟人制作，朋友圈流行的AI雪景。对于创作者来说，这种简单准确的图像生成无疑可以大大降低维护成本，提高创作效率。

本月初，即梦AI推出了“文字海报”功能，输入一句话就可以生成中文/英文海报，后续还增加了涂抹修改错别字的功能。

在实际测量中，即梦AI除了实现简单快捷、排版设计等基本要求外，更加引人注目的表现无疑是AI图像生成中文难以产生的问题，目前国内外文生图模型很难实现与平台快速涂抹修改错别字。此外，即梦模型也可以根据提示自动完善文案，并根据提示补充图片细节。在控制图片中的文字生成方面，即梦想是行业第一。

有了这个功能，B端基本可以满足电商推广、新产品推广、年终活动、视频封面等场景的需求。尤其是对于不会做海报的小企业或者有需要的营销人员、半专业设计师、文字媒体工作者来说，即梦会是一个很好的辅助工具。

录像生成：复杂，多样化

录像生成是当今AI应用领域名副其实的竞争热点，也是各种应用能力的重要试金石。11月中旬，即梦AI推出了S&P双模型。据介绍，选择DiT架构，S2.0 pro 该模型在第一帧一致性和画质方面表现良好，而P2.0 pro模型具有较高的“提示词遵循能力”，即输入镜头切换、人物连续动作、情感解读、镜头控制等复杂提示词。模型也可以理解和准确地生成视频。

在当前视频生成领域，对指令理解、镜头切换和相机控制的最大化实现，已经“卷”出了一个新的高度。OpenAI，迟到了。 Sora，还有一个故事板功能，可以让用户自由添加分镜；而且谷歌Veooo已经被公认完全超越了Sora。 2.在理解复杂指令和控制摄像头方面做到了极致。景深等专业拍摄术语可以直接输入，理想效果的导出可以准确理解。

而且即梦P2.0pro模型，在这些领域也是如此。在镜头切换方面，输入一张图片和prompt，可以生成多个镜头视频，实现全景、中景、特写等镜头切换，保持视频与原图的整体风格、场景和人物高度一致。通过以下实际测量，可以看到视频与原图图片基本一致，产生的面部情绪和肢体细节也比较精确、生动。

prompt：视频呈现转化为动画风格，突出女孩的面部表情，展现购物后的喜悦情绪。

&amp;nbsp;

就人物动作而言，目前P2.0pro模型生成一整套动作，可以实现单主体、多主体、持续、复杂。举例来说，在实际测量中，输入下面的单人静态图，以及prompt：一位男士走进画面，女士转过头看着他，他们互相拥抱，背景周围的人在走。在生成效果中，除了目前大多数模型中人物无法集中注意力的问题外，人物的动作非常连贯，互动效果也符合实际的物理原理，四肢没有移位和变形。

&amp;nbsp;

就运镜控制而言，除了简单的“推、拉、摇、移”外，即梦P2.0 pro模型还可以实现多种运镜，如变焦、主体围绕、升降、旋转、摇晃、鱼眼镜头等，其中“变焦”尤为突出。下面这张原图 prompt(镜头围绕戴墨镜的女人拍摄，从侧面移到正面，最后聚焦女人的墨镜特写。)在实际测量中，prompt的描述在很大程度上实现了，除了镜头有点晃动。

&amp;nbsp;

此外，不仅对拍摄手法和动作语言的准确理解，也就是梦的P2.0pro模型，对情绪的诠释也是准确的。它不仅可以诠释单一的情绪，如哭、笑、难过、愤怒，还可以理解和产生“哭中带笑”等复杂的情绪。

&amp;nbsp;

有很多场景是视频生成的。比如最近文物很受欢迎，用即梦S/P2。.0Pro模型，只需输入prompt词即可简单快捷地完成，不仅是雕塑文物，古画中的人物、动物也可以。

即梦AI在B端场景中也有很大的想象空间。目前模型能力基本可以实现产品展示广告短片、红人口播放短视频等。现在即梦还推出了“对口型”功能，一张图片、一段文字或一段音频，就可以生成对口型视频，无需额外写prompt。在实际测量中，除了口型对齐外，人物的表情和表情基本上可以恢复音频的情感表达；此外，服装、配饰甚至头发的细节都可以实现动态和真实。

&amp;nbsp;

创建想象相机，字节AI欲望

总的来说，即梦AI上线比较晚，还是跟上了类似文学生影像产品的节奏，在清晰度、准确度、细节质量等基本评价维度上给出了亮眼的表现；同时，在完成视频生成、镜头控制等更复杂的任务时，也在不断迭代，追求国内外强势产品。尤其是在生图方面，即梦也解决了插入中文的痛点。

另外，与Sora等海外产品相比，即梦AI目前的订阅门槛相对贴近百姓，高频用户也可以通过每天登录获取积分来换取使用次数。这是大众用户使用的另一个低门槛维度。

当前，文生影像领域的产品形态和功能仍处于较早阶段，竞争格局尚未定型。体现在用户方面，很多用户同时使用多个AI软件工具来完成一项任务。一方面，目前单个工具无法给出最佳结果；另一方面，目前每个工具都有自己的长板，用户可以结合不同工具的形成效果，接近最理想的效果。所以，随着字节跳动在生成式AI领域的投入进一步增加，即梦AI未来肯定会有更多的想象空间。

与一些类似的产品相比，即梦AI背靠字节跳动显然具有更优越的资源优势。字节跳动在基本模型上的投入可以为即梦AI提供底层结构。此外，背靠大厂商的计算资源也是当前环境下应用产品的比较优势。

另一方面，Tiktok还需要持续的内容，即梦也可以与剪影相结合。引入AI生产力工具后，内容会反馈给Tiktok。可以说，与其他同类模型相比，这是Tiktok独特的生态位置优势。

今年二月十八日的即梦发布会上，抖音集团首席执行官辞职。、转任剪影负责人的张楠表示，视觉模型将大大改变我们观看视频的方式——事实上，客户可以随时介入、参与和影响剧情走向，或者观看不同的故事分支机构，而不是被动观看。不仅如此，技术还可以可视化生物脑波，这意味着我们可以探索潜意识的创作之路。

他说：“科学家们估计，一个人的一生可以容纳。 10 一亿个想法。”张楠说，如果抖音是一个记录“现实世界的相机”，那么梦想就是一个“想象相机”。在字节跳动的AI欲望下，这款“想象相机”无疑会加速迭代。

剪影业务负责人张楠

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

提高效率和质量，「四问」南京弘阳广场的来路和去向

盒马熬出头了

比亚迪的年销售额远远超过特斯拉，可能还差一口气。

金风玉露一相遇：音乐剧和戏曲的同气相求

项目推荐

梯影传媒

AI云印侠

宾果智能