字节跳动不能输掉一场仗。 | 焦点分析

2024-09-27

文｜邓咏仪周鑫雨

编辑｜苏建勋

每个人都知道这件事：字节跳动终于发布了自己的“Sora”。

在9月24日的深圳AI创新巡展上，火山发动机发布了两个视频，生成了PixelDance(像素舞动)和Seaweed(海草)，并为企业市场开启了邀请测试。

这个发布没有任何警告。除少数进入内测环节的创作者外，字节也没有发布任何相关新产品的消息。

虽然低调，但市场仍然对字节sora有很大的期待。年初，OpenAI的Sora几乎踢开了多模式和视频生成的大门。之后，6月份，Aautora爆炸，完全点燃了这条赛道。

字节作为一个短视频巨头，自去年ChatGPT发布以来，一直备受期待。从现有条件来看，字节几乎是大厂中最有先天优势的:富裕、芯片、人才密度都足够高。

Sora跑道已经被市场公认为字节和Aautora的“自然选择场景”——短视频巨头不仅拥有大量的数据，而且使用场景也足够丰富。

但现实是，自6月份推出以来，超过260万人使用了可灵，共生成了2700万个视频和5300万张照片。但是之前的字节还是没有声音，难免要面对市场上很多猜测——AI视频生成模型发布后，还有多大的胜利？

字节版“Sora"你能摘下Sora的帽子吗？

就效果而言，两个模型最初能达到的效果，无疑令人惊叹。

在字节官方给出的案例中，无论是统一性还是角色丰富性，都达到了更高的水平。

文字或图像生成的AI视频不仅可以遵循复杂的指令，还可以让不同的角色完成多个动作指令的互动。人物的外貌、服装细节甚至发饰在不同的镜子下保持一致，接近实拍效果。

△来源：豆包AI视频生成模型

值得注意的是，一是多帧视频的连续性。

在此之前，大多数视频生成模型只能完成一个简单的指令，比如一个人/一个对象，完成一个动作。一旦有复杂的动线，视频很容易扭曲变形。

现在豆包AI视频生成模型可以实现自然连贯的动作，连接性和效果在跑步、走路、抬头等方面都好很多。简单来说，如果你不看，你会突然在史密斯吃面条，变成特朗普吃面条。

△来源：豆包AI视频生成模型

第二，角色的丰富性。此次豆包发布的AI模型，其优势尤为明显的是多主体之间的互动。

在很多情况下，可以看到很多角色之间的互动，连贯合理的动作，丰富的镜头类型，包括各种类型的镜头调度方式——远景和特写的转换。镜头还可以实现各种形式的变化，如变焦、围绕、平摇、缩放和目标跟随。

人物外貌、服饰细节甚至发饰在转换前后都能保持一致。

下一段视频，从前面戴着潜水墨镜的人，到后面的另一个潜水员，两者的形象也保持一致。

△来源：豆包AI视频生成模型

目前，PixelDance(像素舞动)和Seaweed(海草)模型都在小范围内测试，第一次测试还没有完全开放。但《智能出现》通过内测风景、人物等场景，即梦AI在即时生成风景视频、镜头调度、画质等方面都是显著的。

△来源：PixelDance功能36氪实测

然而，在人物生成场景中，输入原始图片在指定动作Prompt之后，随着动作的变化，一致性仍然很好，但是会有一些手指变形的bug，

△来源：PixelDance36氪实测视频功能

这一次，豆包的AI模型是基于自主研发的DiT架构，这也被认为是OpenAI。同款Sora架构，是目前AI视频赛道上的主流技术路线。

然而，AI视频生成跑道的发展阶段比文本和图像更早。如今的底层算法主要是闭源，数据极其稀缺——意味着每个家庭都只能走自己的路，努力争取工程优化能力。

火山发动机总裁谭待也表示，即梦AI等需求场景已经深入完善了Transformer的结构，但在DiT架构的研究上也有很多创新，可以大大解决AI视频应用成本高的问题，最大限度地降低应用成本。

但也有AI视频领域的从业者保持理性，觉得没必要期望太高。“现在底层的大模型没有代差，差距太大。”

AI博主归藏时，将豆包和AI视频老大哥Runway，以及明星创作Luma。直观对比了AI的形成效果。——

△来源：归藏

从功能上看，本次字节发布的Seaweed模型产品功能和体验更加多样化，不仅支持各种风格的提示响应，还支持多种比例的横向和纵向输出。

"综合结果比Luma好得多，与Runway各有利弊."归藏立即表示。

无论如何，字节的野心已经摆在桌子上了。除了两个新的AI视频模型，这个字节还发布了新的豆包音乐模型、同声翻译模型和音乐模型。对于创作者来说，豆包的大模型家族真的成了“全家桶”：涵盖语言、语音、图像、视频等模式。

更加值得关注的是业务水平的快速增长。

自豆包大模型家族正式发布以来，日均调用量经历了爆发式增长。截至9月，豆包语言模型的日均tokens使用量超过1.3万亿元，比5月份第一次发布时增加了10倍。其中，多模态数据处理量分别达到每天5000万张图片和85万小时语音。

最近的AI产品增长绩效统计图相当有趣:只是豆包App的MAU增长，远远拉开了与其他产品的距离。

△来源：AI商品列表

豆包的爆炸式增长更多来自之前激进的价格战。从5月份开始，包括字节、阿里、腾讯等巨头，以及Deepseek等创业公司都进行了轰轰烈烈的降价。字节甚至以“厘”为基准，将每千美元的价格卷入地板价格。

现在，底层模型已经到了拼写特性的阶段。火山发动机总裁谭待这次又提出了一个新的指标:峰值TPM(每分钟Token数)。“目前行业内很多大模型只支持TPM300K甚至100K，很难承载企业的生产环境流量。”他说。

TPM，可视为单位时间内模型数据吞吐量。据谭待介绍，豆包Pro支持800KTPM，例如某科研机构的文献翻译场景，TPM峰值为360K，某汽车智能驾驶舱TPM峰值为420K，某AI教育公司TPM峰值为630K。豆包Pro现在可以满足这些场景。

随着豆包AI生成视频的发布，字节终于添加了一个AI视频的拼图。这与昨晚OpenAI突然发布的高级语音功能形成了一个明确的比喻:在模型层面，大厂商已经武装到了牙齿，大细分赛道都有相应的模型——给创业者留下了另一个问号的空间。

字节与快手的长期对决

字节对胜利的渴望在AI赛场上溢于言表。

剪影及其AI视频产品“即梦”，由前抖音集团CEO组成。、现在剪影业务负责人张楠亲自带队。而且为了让这次的两个新模型快速上线，字节也抽调了不少人做项目。

字节跳动的焦虑，来自短视频战场的老对手：快手。

2024年6月，文生视频模型“可灵”，突然空降快手编辑商品“快影”。

当“中国版Sora”出现在行业苦难中时，可灵的表现是亮眼的。

“现在视频生成很难成长的原因，一是成本高，二是前后一致性难以保证。”一位AI从业者告诉36Kr，“但灵能生成2分钟视频的天花板比Sora高(60秒)。”

此外，从镜头连接和元素连接的逻辑角度来看，很多业内人士表示，在中国Sora产品中，可灵的效果是顶级的。

与当时还没有开放的Sora相比，Aautora对“老铁”也是慷慨坦诚的:立即开放第一次测试，免费。与小圈子里的科技视频生成模型Vidu相比。

与PixelDance和Seaweed不同，PixelDance和Seaweed参与了很多工程师，可灵团队的项目执行方式可谓相当粗放和激进。

据媒体报道，灵魂团队只有20多人，从项目立项到上线只用了3个月。灵魂启动一个月后，被提升为Aautorapper的战略项目。Aautorapper高级副总裁、主站业务和社区科学线负责人盖坤常说:公司所有的卡都是给大家用的，公司大力支持。

在豆包发布之前，可灵还提供了9次迭代，直到9月19日。Web端推出了最新的1.5版本，画质更清晰，运动轨迹更符合物理规律，支持更复杂的镜头控制和可定制的运动轨迹。

很多从业人员对36氪的判断，可灵的爆红，与快手丰富的视频数据积累密切相关。而且能够与之抗争的，大概率只有拥有抖音的字节跳动。

然而，在视频生成领域，字节对战Aautorapper至今遭遇了罕见的失败。事实上，在可灵发布的前一个月，AI视频生成功能在AIGC产品“即梦”上线。

但无论是关注度还是用户口碑，即梦想都不是一个好看的产品。一位用户评论说，在一般效果下，非会员生成视频超过3秒实际上是要收费的。

字节已经给了压力。一个人工智能在3D领域生成的从业者表示，AI视频生成公司给出的例子通常是Good，通过尝试多次输入Prompt获得的例子。 Case(好样本)。等待全面上线后，才能真正看到豆包在实用场景中的表现。

“一些显而易见的指标是，长镜头的时间什么时候可以超过1分钟，多分镜转换后时空一致性能是否能保持，分辨率是否会随着分辨率的增加而增加。”他指出。

AI视频的应用成本对于目前的抖音和剪影业务量来说仍然很高。

最直观的问题之一是，如何在降低AI应用成本的同时，保持产品和效果的高水平，将是一个更难的挑战，因为这样一个月的剪影活动已经超过3亿，专注于视频编辑场景的应用。

先发优势在AI模型层还是很重要的。目前，可灵和Vidu已经率先占据了视频生成领域的用户心智。作为后来者的字节，他们不得不加快步伐。

这场漫长的战斗才刚刚开始。

封面来源｜视频截图

扫码加入「智涌AI交流群」

欢迎交流

本文来源于微信微信官方账号“智能涌现”，作者：邓咏仪周鑫雨，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

TikTok终于放弃了。

三大a股指数集体低开，上证指数下跌0.09%

与苹果掰手腕，扎克伯格找到了一条新的路径。重点分析

爱琴海首个国际一线IP主题公园×正式发布旗舰商品

想要学习新技能又输给拖延症？试试这个招数

项目推荐

迪瓜租机

康老板 · 氧疗堂