字节推新产品,血战视频AI Agent?
DataEye研究院近日发现,字节剪影团队推出了一款全新的AI应用——小云雀,定位为“内容创作Agent”,包括智能电影、AI设计等四大功能。用户只需输入文字指令,一句话就可以生成短视频、数字人口广播、海报等。借助AI一键,主要推广“零创作门槛”。
那小云雀的具体能力是什么呢?与另一个字节视频AI即梦相比,有什么不同?为什么字节要推出这个全新的AI应用?
为了回答上述问题,DataEye研究院开始体验小云雀APP,并结合互联网公开信息对问题进行分析,供大家参考。
第一,产品体验
(一)应用界面
根据DataEye研究院的经验,小云雀APP的界面比较简单,应用的左上角是“用户中心”,右上角是“创意记录”,底部是输入框和四个功能按钮:智能电影、数字人视频、AI设计和AI更换背景。

另外,除了底部按钮外,还可以在使用中间左右滑动来切换功能选项。
模型支持(二)

在模型端,小云雀正式列出了它接入的三个大模型,即大豆包模型、小豆包图片模型、追求对话DeepSeekChat。
(三)功能感觉
在功能上,小云雀有四个主要功能:智能电影、数字人视频、AI设计和AI背景交换,每个功能都遵循“创作思路-理解分析-创意剧本/设计-编辑电影/绘图结果”的工作流程,最终导出四个结果供用户选择。
DataEye研究所对每个功能进行了测试,并在每个测试结果中选择了以下内容:
①智能成片:
输入:
请帮我讲一个桃园三结义的故事,水墨画风格,注意保持人物形象的一致性
流程:

效果:
导出视频遵循故事主题和画面风格的输入指令,但声音生硬,人物未能保持一致。比如刘关张前期都是将军,但是视频后期喝酒的时候都变成了文人形象。关羽还有各种不同的形象,如红面、绿袍、白衬衫等。,而张飞的形象也有不同的问题。
②数字视频:
输入:
请帮助我做一个鼓励高考学生口播的视频。
流程:

效果:
在导出视频中,数字人的形象与真人没有什么不同,嘴型与配音一致,内容主题与输入指令一致,但也存在配音生硬的现象,数字人与配音的匹配度较低。
③AI设计:
输入:
在618大促期间,请帮我做一张88折的洗面奶海报。
流程:

效果:

导出照片符合内容上的输入指令,但仍存在一些缺陷。比如洁面乳瓶上不小心印了“618促销”这个词作为产品名称,画面左下方出现了无意义的错码,但整体效果是无法掩盖的。
④更换AI背景:
输入:
书店角落里有椅子,书架上有书和台灯,画面中有柔和的光线。
流程:

效果:

整体导出照片与输入指令一致,椅边无毛刺,光线柔和,光影自然,同时书柜、书籍、台灯等条件也呈现出来。
DataEye研究所认为: 小云雀的四个功能在体验上都有一定的优缺点。优点是操作简单,所有功能只需一句话下达指令即可完成。应用程序会自动调用相应的大模型,分别完成剧本创作、视频编辑等环节,最终完成任务输出结果。缺点是部分功能的生成结果还存在一些缺陷。目前由于排队人数多,无法生成视频。
小云雀VS即梦,有什么异同?
在产品功能上,小云雀与字节下的即梦AI相似,两款产品均由剪影团队生产。那么小云雀和即梦在具体功能上有什么区别呢?
即梦AI应用终端主要有四个功能:图片生成、视频生成、数字人和动作模仿,其中前三个功能与小云雀重叠。因此,这一节使用了与上一节完全相同的输入指令,比较了小云雀和即梦在这三个功能上的表现。
(一)即梦AI视频生成
输入:
请帮我讲一个桃园三结义的故事,水墨画风格,注意保持人物形象的一致性
(同时手动选择视频比例为9:16、视频时长为10秒,视频模型为3.0)
效果:
表现对比:
导出视频遵循桃园三结义的故事主题。画面采用了水墨画中的“彩墨画”风格。画面精细度高,但缺点也很明显。
首先,由于即梦AI视频的生成最多支持10秒视频的生成,很难支持一个故事的内容要求,所以画面是单一的,只有三个人在固定场景中做了一些动作。其次,视频中人物的特点与将军的风格不一致,左边的绿色人物手上的鞠躬动作并不完整;然后,右上角出现了乱码内容;最后视频没有配音,是无声视频。
(二)即梦AI数字人(快速生成方法)
由于即梦AI数字人的功能需要手动设置图像、音质和口播内容,不可能一句话就生成视频,所以DataEye研究院根据需要使用即梦AI。 APP分步拆解完成设置, 流程如下:

① 利用即梦AI图片生成功能,生成一个阳光青年形象;
② 利用即梦AI灵感指导功能,生成鼓励高考学生口播;
③ 在即梦AI数字人功能中,导入前两步生成的图片和口播内容(因字数限制略有删除),选择“阳光青年”音质后选择快速生成方法。
效果:
表现对比:
出口视频数字人具有明显的AI风格,嘴型和配音偶尔会出现不一致的情况,数字人动作不够自然。
与小云雀数字视频相比,在快速生成模式下,即梦AI数字人在真人相似性、动作自然性、流程简单性等方面都不如小云雀,但在配音协调性方面优于小云雀。
与此同时,即梦AI数字人的功能还存在一定的限制,如口播内容最大不超过80字,音质为16种固定选择等。
(三)即梦AI图片生成
输入:
在618大促期间,请帮我做一张88折的洗面奶海报。
(同时手动选图比例为9:16、图片3.0为模型、图像清晰度为1K)
效果:

表现对比:
导出的照片非常符合输入指令,产品本身和画面质感都非常真实,超越了小云雀的形成效果。美中不足之处在于海报整体单调,除了商品展示和折扣提示,没有产品亮点等信息。
总的来说,小云雀和即梦AI在功能性能上各有优缺点。小云雀最大的优势在于“傻瓜操作”,不需要繁琐的设置。只需输入一个指令,AI就可以自动执行任务,后续可以修改指令。相对来说,即梦AI的操作复杂度略高,有时间、字数等限制,但生成效果也有独特的优势。
另外,即梦作为一种比较成熟的商品,目前正在持续进行付费投流,而小云雀目前基本没有投流(ADX行业版只监测到5月30日小云雀投放了7组材料)。
根据ADX行业版的数据,在过去的30天里,即梦AI的投放整体呈先降后升的趋势。5月12日至5月下旬,即梦AI日投放的材料数量波动较低,最低日投放的材料数量约为100组。5月底开始快速升级,达到最高点,每天投放的材料数量约为300组,并持续至今。
发力视频Agent,字节是为了什么?
事实上,除小云雀外,字节剪影团队最近还连续推出了另外两款产品:Pippit 剪小映的AI和剪小映。
Pippit AI主要位于Web端,定位于AI营销内容创作平台,包括产品链接转短视频、AI数字人、批量图片创作、预约自动发布、数据看板等功能。,帮助中小跨境企业实现从内容创作到营销到数据反馈的联动。
剪辑小映面向普通用户,核心是阅读相册AI智能剪辑生成视频。
不管是Pippit AI、剪小映还是小云雀,它的核心都集中在一点: 高度自动化 ,使用户只需傻瓜式操作,AI就可以一键生成结果供用户选择,这也是AI。 agent的目的:让AI不再仅仅是一个回答问题的助手,而是能动手工作的出现。
而且在短时间内,字节旗下剪影团队推出了多种内容创作Agent,背后的原因是什么?
DataEye研究所认为,主要有三个原因:
(一)在市场方面,各大厂商都在努力Agent,字节需要进一步面对竞争。
被称为AI的2025年 Agent元年,各大厂商、小厂商都在发力AI。 Agent。三月份,Manus发布了通用Agent产品,一夜之间爆红,现在,字节、腾讯等都纷纷布局。一度很难找到字节扣空间,腾讯和百度也进入了移动终端,前者推出了QBot。 AI智能体,上线AI高考通,下载助手,更新助手,股票助手四款Agent,后者推出心响APP。
在这样的市场压力下,字节需要进一步应对竞争。除了通用的Agent按钮空间,手机上的垂直Agent小云雀再次被引入,以便通过视频Agent在市场竞争中占据主导地位。
在产品层面,垂直Agent更专注,或者更具探索价值。
上面提到的Manus、按钮空间、百度心跳APP等。,所有的定位都是通用Agent,也就是智能体可以完成各种功能,但由于目前的技术能力,通用Agent通常会面临一个问题:容易陷入“一切通,一切松”的困境。
相反,垂直Agent更专注于某些类型的秘密任务,所以它的能力、价值在某些方面可能更高。
就像上个月流行的垂直类设计Agent产品Lovart一样,在外界对其与Manus的对比测试中发现,Lovart的生图能力与Manus相当,但Lovart更像是从零开始建立一个完整的设计工作流程,甚至材料都是分层的,而Manus更像是在调整模型。 拼写材料,这也是垂直和通用Agent的区别。
字节剪影团队在剪影和即梦团队AI能力的基础上,拥有庞大的视频编辑经验,尝试垂直视频Agent,可能对字节更有探索价值。
在AI时代,字节可能对剪影团队抱有更高的期望,从公司战略上讲。
去年年底,有报道称,字节优先考虑提高即梦AI的产品,试图通过新的路径打造AI时代的“Tiktok”。原因是字节内部认为视频生成AI跑道未来可能比豆包这样的AI助手更有潜力。
所以,剪影团队不断推出多种商品,或许正与字节内的AI策略有关,试图通过即梦、小云雀、剪影、Pippit AI覆盖了不同的场景,测试效果。
本文来源于微信公众号“DataEye应用数据信息”,作者:DataEye,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




