文生影像年底「考试」,带着即梦AI的字节跳动「交卷」

2024年底,文生影像领域硝烟弥漫。
十二月初,OpenAI终于端上了Sora这道硬菜,最高分辨率1080P,20秒的时间,以及故事板、Remix等功能,无疑再一次搅拌了已经进入白热化竞争的文生影像武林。但是随后,竞争格局再次被刷新——谷歌发布了文生视频模型Veo模型 它在指令遵循、镜头控制和画面质量方面都表现出惊人的表现。国内玩家也不会多让。即梦AI,背靠字节跳动强大的短视频基因,在上线后的四个月里经历了多次迭代,最终解决了AI生成图像的中文嵌入问题。
目前,随着影像叙事的普及,文生图/视频无疑成为AI应用的必争之地,竞争远未结束。不符合物理原则的AI生成视频,除了让人发笑之外,还反映了文生图像领域的诸多烦恼,如质量低、反应慢、操作复杂、伪影频发等。
与国内外其他主要文化图像玩家相比,即梦AI进入相对较晚,但足以让行业不可低估,也让用户对其抱有很高的期望。其实梦AI本身也有很大的欲望,喊出了“想象相机”的口号。
那么,自2024年5月推出以来,即梦AI有哪些看家本领呢?与包括Sora在内的国内外同类应用相比,它的基本功是什么?通过即梦AI,或者可以在AI应用中列出第一年在文化生活影像领域的字节跳动的成绩单。

一句话改图:简单,准确,
即梦AI在11月推出了“智能参考”功能,声称用户可以通过一句话实现零门槛改图,并且能够准确地获得预期效果。
例如,尝试改造流行的文物动作。选择兵马俑的照片,点击使用“智能参考”功能,输入简单的promt。:喝奶茶的兵马俑,短短几秒钟,原图就变成了一张左手拿奶茶的兵马俑图,可以看到图片的其他位置基本保持了原图的状态,没有变形,整个过程不需要额外的涂抹和边缘描述。

prompt:喝奶茶的兵马俑

再试试更复杂的改图效果。去掉原图中女生面前的玻璃。从效果图中可以看出,即梦AI对prompt的认知仍然非常准确,玻璃已经完全消除,原图的其他细节基本保留下来。

prompt:清除图片的玻璃渣

在多次测试中,我们可以看到,即梦AI的图像生成模型可以识别表情、情感、风格、成语等词汇,并且可以实现准确的任务执行。
就效果而言,目前即梦AI的改图功能可以改变风格、动作、表情、2D3D。、多种效果,如改装/换人、调整主体、改变场景等。与同类模型相比,覆盖面相对全面。
简单、准确、多样化的效果,可以满足C端大众用户在社交媒体使用过程中的大部分绘图需求,比如最近流行的经典卡通头像拟人制作,朋友圈流行的AI雪景。对于创作者来说,这种简单准确的图像生成无疑可以大大降低维护成本,提高创作效率。
本月初,即梦AI推出了“文字海报”功能,输入一句话就可以生成中文/英文海报,后续还增加了涂抹修改错别字的功能。
在实际测量中,即梦AI除了实现简单快捷、排版设计等基本要求外,更加引人注目的表现无疑是AI图像生成中文难以产生的问题,目前国内外文生图模型很难实现与平台快速涂抹修改错别字。此外,即梦模型也可以根据提示自动完善文案,并根据提示补充图片细节。在控制图片中的文字生成方面,即梦想是行业第一。
有了这个功能,B端基本可以满足电商推广、新产品推广、年终活动、视频封面等场景的需求。尤其是对于不会做海报的小企业或者有需要的营销人员、半专业设计师、文字媒体工作者来说,即梦会是一个很好的辅助工具。

录像生成:复杂,多样化
录像生成是当今AI应用领域名副其实的竞争热点,也是各种应用能力的重要试金石。11月中旬,即梦AI推出了S&P双模型。据介绍,选择DiT架构,S2.0 pro 该模型在第一帧一致性和画质方面表现良好,而P2.0 pro模型具有较高的“提示词遵循能力”,即输入镜头切换、人物连续动作、情感解读、镜头控制等复杂提示词。模型也可以理解和准确地生成视频。
在当前视频生成领域,对指令理解、镜头切换和相机控制的最大化实现,已经“卷”出了一个新的高度。OpenAI,迟到了。 Sora,还有一个故事板功能,可以让用户自由添加分镜;而且谷歌Veooo已经被公认完全超越了Sora。 2.在理解复杂指令和控制摄像头方面做到了极致。景深等专业拍摄术语可以直接输入,理想效果的导出可以准确理解。
而且即梦P2.0pro模型,在这些领域也是如此。在镜头切换方面,输入一张图片和prompt,可以生成多个镜头视频,实现全景、中景、特写等镜头切换,保持视频与原图的整体风格、场景和人物高度一致。通过以下实际测量,可以看到视频与原图图片基本一致,产生的面部情绪和肢体细节也比较精确、生动。

prompt:视频呈现转化为动画风格,突出女孩的面部表情,展现购物后的喜悦情绪。
 
就人物动作而言,目前P2.0pro模型生成一整套动作,可以实现单主体、多主体、持续、复杂。举例来说,在实际测量中,输入下面的单人静态图,以及prompt:一位男士走进画面,女士转过头看着他,他们互相拥抱,背景周围的人在走。在生成效果中,除了目前大多数模型中人物无法集中注意力的问题外,人物的动作非常连贯,互动效果也符合实际的物理原理,四肢没有移位和变形。

 
就运镜控制而言,除了简单的“推、拉、摇、移”外,即梦P2.0 pro模型还可以实现多种运镜,如变焦、主体围绕、升降、旋转、摇晃、鱼眼镜头等,其中“变焦”尤为突出。下面这张原图 prompt(镜头围绕戴墨镜的女人拍摄,从侧面移到正面,最后聚焦女人的墨镜特写。)在实际测量中,prompt的描述在很大程度上实现了,除了镜头有点晃动。

 
此外,不仅对拍摄手法和动作语言的准确理解,也就是梦的P2.0pro模型,对情绪的诠释也是准确的。它不仅可以诠释单一的情绪,如哭、笑、难过、愤怒,还可以理解和产生“哭中带笑”等复杂的情绪。

 
有很多场景是视频生成的。比如最近文物很受欢迎,用即梦S/P2。.0Pro模型,只需输入prompt词即可简单快捷地完成,不仅是雕塑文物,古画中的人物、动物也可以。
即梦AI在B端场景中也有很大的想象空间。目前模型能力基本可以实现产品展示广告短片、红人口播放短视频等。现在即梦还推出了“对口型”功能,一张图片、一段文字或一段音频,就可以生成对口型视频,无需额外写prompt。在实际测量中,除了口型对齐外,人物的表情和表情基本上可以恢复音频的情感表达;此外,服装、配饰甚至头发的细节都可以实现动态和真实。

 

创建想象相机,字节AI欲望
总的来说,即梦AI上线比较晚,还是跟上了类似文学生影像产品的节奏,在清晰度、准确度、细节质量等基本评价维度上给出了亮眼的表现;同时,在完成视频生成、镜头控制等更复杂的任务时,也在不断迭代,追求国内外强势产品。尤其是在生图方面,即梦也解决了插入中文的痛点。
另外,与Sora等海外产品相比,即梦AI目前的订阅门槛相对贴近百姓,高频用户也可以通过每天登录获取积分来换取使用次数。这是大众用户使用的另一个低门槛维度。
当前,文生影像领域的产品形态和功能仍处于较早阶段,竞争格局尚未定型。体现在用户方面,很多用户同时使用多个AI软件工具来完成一项任务。一方面,目前单个工具无法给出最佳结果;另一方面,目前每个工具都有自己的长板,用户可以结合不同工具的形成效果,接近最理想的效果。所以,随着字节跳动在生成式AI领域的投入进一步增加,即梦AI未来肯定会有更多的想象空间。
与一些类似的产品相比,即梦AI背靠字节跳动显然具有更优越的资源优势。字节跳动在基本模型上的投入可以为即梦AI提供底层结构。此外,背靠大厂商的计算资源也是当前环境下应用产品的比较优势。
另一方面,Tiktok还需要持续的内容,即梦也可以与剪影相结合。引入AI生产力工具后,内容会反馈给Tiktok。可以说,与其他同类模型相比,这是Tiktok独特的生态位置优势。
今年二月十八日的即梦发布会上,抖音集团首席执行官辞职。、转任剪影负责人的张楠表示,视觉模型将大大改变我们观看视频的方式——事实上,客户可以随时介入、参与和影响剧情走向,或者观看不同的故事分支机构,而不是被动观看。不仅如此,技术还可以可视化生物脑波,这意味着我们可以探索潜意识的创作之路。
他说:“科学家们估计,一个人的一生可以容纳。 10 一亿个想法。”张楠说,如果抖音是一个记录“现实世界的相机”,那么梦想就是一个“想象相机”。在字节跳动的AI欲望下,这款“想象相机”无疑会加速迭代。

剪影业务负责人 张楠
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




