字节跳动不能输掉一场仗。 | 焦点分析

2024-09-27

文|邓咏仪 周鑫雨


编辑|苏建勋


每个人都知道这件事:字节跳动终于发布了自己的“Sora”。


在9月24日的深圳AI创新巡展上,火山发动机发布了两个视频,生成了PixelDance(像素舞动)和Seaweed(海草),并为企业市场开启了邀请测试。


这个发布没有任何警告。除少数进入内测环节的创作者外,字节也没有发布任何相关新产品的消息。


虽然低调,但市场仍然对字节sora有很大的期待。年初,OpenAI的Sora几乎踢开了多模式和视频生成的大门。之后,6月份,Aautora爆炸,完全点燃了这条赛道。


字节作为一个短视频巨头,自去年ChatGPT发布以来,一直备受期待。从现有条件来看,字节几乎是大厂中最有先天优势的:富裕、芯片、人才密度都足够高。


Sora跑道已经被市场公认为字节和Aautora的“自然选择场景”——短视频巨头不仅拥有大量的数据,而且使用场景也足够丰富。


但现实是,自6月份推出以来,超过260万人使用了可灵,共生成了2700万个视频和5300万张照片。但是之前的字节还是没有声音,难免要面对市场上很多猜测——AI视频生成模型发布后,还有多大的胜利?


字节版“Sora"你能摘下Sora的帽子吗?


就效果而言,两个模型最初能达到的效果,无疑令人惊叹。


在字节官方给出的案例中,无论是统一性还是角色丰富性,都达到了更高的水平。


文字或图像生成的AI视频不仅可以遵循复杂的指令,还可以让不同的角色完成多个动作指令的互动。人物的外貌、服装细节甚至发饰在不同的镜子下保持一致,接近实拍效果。



△来源:豆包AI视频生成模型


值得注意的是,一是多帧视频的连续性。


在此之前,大多数视频生成模型只能完成一个简单的指令,比如一个人/一个对象,完成一个动作。一旦有复杂的动线,视频很容易扭曲变形。


现在豆包AI视频生成模型可以实现自然连贯的动作,连接性和效果在跑步、走路、抬头等方面都好很多。简单来说,如果你不看,你会突然在史密斯吃面条,变成特朗普吃面条。



△来源:豆包AI视频生成模型


第二,角色的丰富性。此次豆包发布的AI模型,其优势尤为明显的是多主体之间的互动。


在很多情况下,可以看到很多角色之间的互动,连贯合理的动作,丰富的镜头类型,包括各种类型的镜头调度方式——远景和特写的转换。镜头还可以实现各种形式的变化,如变焦、围绕、平摇、缩放和目标跟随。


人物外貌、服饰细节甚至发饰在转换前后都能保持一致。


下一段视频,从前面戴着潜水墨镜的人,到后面的另一个潜水员,两者的形象也保持一致。



△来源:豆包AI视频生成模型


目前,PixelDance(像素舞动)和Seaweed(海草)模型都在小范围内测试,第一次测试还没有完全开放。但《智能出现》通过内测风景、人物等场景,即梦AI在即时生成风景视频、镜头调度、画质等方面都是显著的。



△来源:PixelDance功能36氪实测


然而,在人物生成场景中,输入原始图片 在指定动作Prompt之后,随着动作的变化,一致性仍然很好,但是会有一些手指变形的bug,



△来源:PixelDance36氪实测视频功能


这一次,豆包的AI模型是基于自主研发的DiT架构,这也被认为是OpenAI。 同款Sora架构,是目前AI视频赛道上的主流技术路线。


然而,AI视频生成跑道的发展阶段比文本和图像更早。如今的底层算法主要是闭源,数据极其稀缺——意味着每个家庭都只能走自己的路,努力争取工程优化能力。


火山发动机总裁谭待也表示,即梦AI等需求场景已经深入完善了Transformer的结构,但在DiT架构的研究上也有很多创新,可以大大解决AI视频应用成本高的问题,最大限度地降低应用成本。


但也有AI视频领域的从业者保持理性,觉得没必要期望太高。“现在底层的大模型没有代差,差距太大。”


AI博主归藏时,将豆包和AI视频老大哥Runway,以及明星创作Luma。 直观对比了AI的形成效果。——



△来源:归藏


从功能上看,本次字节发布的Seaweed模型产品功能和体验更加多样化,不仅支持各种风格的提示响应,还支持多种比例的横向和纵向输出。


"综合结果比Luma好得多,与Runway各有利弊."归藏立即表示。


无论如何,字节的野心已经摆在桌子上了。除了两个新的AI视频模型,这个字节还发布了新的豆包音乐模型、同声翻译模型和音乐模型。对于创作者来说,豆包的大模型家族真的成了“全家桶”:涵盖语言、语音、图像、视频等模式。


更加值得关注的是业务水平的快速增长。


自豆包大模型家族正式发布以来,日均调用量经历了爆发式增长。截至9月,豆包语言模型的日均tokens使用量超过1.3万亿元,比5月份第一次发布时增加了10倍。其中,多模态数据处理量分别达到每天5000万张图片和85万小时语音。


最近的AI产品增长绩效统计图相当有趣:只是豆包App的MAU增长,远远拉开了与其他产品的距离。



△来源:AI商品列表


豆包的爆炸式增长更多来自之前激进的价格战。从5月份开始,包括字节、阿里、腾讯等巨头,以及Deepseek等创业公司都进行了轰轰烈烈的降价。字节甚至以“厘”为基准,将每千美元的价格卷入地板价格。


现在,底层模型已经到了拼写特性的阶段。火山发动机总裁谭待这次又提出了一个新的指标:峰值TPM(每分钟Token数)。“目前行业内很多大模型只支持TPM300K甚至100K,很难承载企业的生产环境流量。”他说。


TPM,可视为单位时间内模型数据吞吐量。据谭待介绍,豆包Pro支持800KTPM,例如某科研机构的文献翻译场景,TPM峰值为360K,某汽车智能驾驶舱TPM峰值为420K,某AI教育公司TPM峰值为630K。豆包Pro现在可以满足这些场景。


随着豆包AI生成视频的发布,字节终于添加了一个AI视频的拼图。这与昨晚OpenAI突然发布的高级语音功能形成了一个明确的比喻:在模型层面,大厂商已经武装到了牙齿,大细分赛道都有相应的模型——给创业者留下了另一个问号的空间。


字节与快手的长期对决


字节对胜利的渴望在AI赛场上溢于言表。


剪影及其AI视频产品“即梦”,由前抖音集团CEO组成。、现在剪影业务负责人张楠亲自带队。而且为了让这次的两个新模型快速上线,字节也抽调了不少人做项目。


字节跳动的焦虑,来自短视频战场的老对手:快手。


2024年6月,文生视频模型“可灵”,突然空降快手编辑商品“快影”。


当“中国版Sora”出现在行业苦难中时,可灵的表现是亮眼的。


“现在视频生成很难成长的原因,一是成本高,二是前后一致性难以保证。”一位AI从业者告诉36Kr,“但灵能生成2分钟视频的天花板比Sora高(60秒)。”


此外,从镜头连接和元素连接的逻辑角度来看,很多业内人士表示,在中国Sora产品中,可灵的效果是顶级的。


与当时还没有开放的Sora相比,Aautora对“老铁”也是慷慨坦诚的:立即开放第一次测试,免费。与小圈子里的科技视频生成模型Vidu相比。


与PixelDance和Seaweed不同,PixelDance和Seaweed参与了很多工程师,可灵团队的项目执行方式可谓相当粗放和激进。


据媒体报道,灵魂团队只有20多人,从项目立项到上线只用了3个月。灵魂启动一个月后,被提升为Aautorapper的战略项目。Aautorapper高级副总裁、主站业务和社区科学线负责人盖坤常说:公司所有的卡都是给大家用的,公司大力支持。


在豆包发布之前,可灵还提供了9次迭代,直到9月19日。Web端推出了最新的1.5版本,画质更清晰,运动轨迹更符合物理规律,支持更复杂的镜头控制和可定制的运动轨迹。


很多从业人员对36氪的判断,可灵的爆红,与快手丰富的视频数据积累密切相关。而且能够与之抗争的,大概率只有拥有抖音的字节跳动。


然而,在视频生成领域,字节对战Aautorapper至今遭遇了罕见的失败。事实上,在可灵发布的前一个月,AI视频生成功能在AIGC产品“即梦”上线。


但无论是关注度还是用户口碑,即梦想都不是一个好看的产品。一位用户评论说,在一般效果下,非会员生成视频超过3秒实际上是要收费的。


字节已经给了压力。一个人工智能 在3D领域生成的从业者表示,AI视频生成公司给出的例子通常是Good,通过尝试多次输入Prompt获得的例子。 Case(好样本)。等待全面上线后,才能真正看到豆包在实用场景中的表现。


“一些显而易见的指标是,长镜头的时间什么时候可以超过1分钟,多分镜转换后时空一致性能是否能保持,分辨率是否会随着分辨率的增加而增加。”他指出。


AI视频的应用成本对于目前的抖音和剪影业务量来说仍然很高。


最直观的问题之一是,如何在降低AI应用成本的同时,保持产品和效果的高水平,将是一个更难的挑战,因为这样一个月的剪影活动已经超过3亿,专注于视频编辑场景的应用。


先发优势在AI模型层还是很重要的。目前,可灵和Vidu已经率先占据了视频生成领域的用户心智。作为后来者的字节,他们不得不加快步伐。


这场漫长的战斗才刚刚开始。


封面来源|视频截图


扫码加入「智涌AI交流群」


欢迎交流



欢迎交流


本文来源于微信微信官方账号“智能涌现”,作者:邓咏仪周鑫雨,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com