字节快手，AI视频“狭路又相遇”

2025-04-19

文｜周鑫雨

编辑｜苏建勋

2025年4月中旬，快手和字节这两位老对手，在AI视频生成领域，再一次狭路相逢。

首先，4月14日，字节跳动视频生成基本模型Seaweed，低调上线官网，并发布技术报告。

“四两拨千斤”是这次字节在视频领域想要达到的效果。Seaweed-7B是第一款模型，不仅用70亿参数完成了同类模型超过140亿参数的效果，而且训练效率也相当高:同类模型训练一般需要几百万GPU的时间，Seaweed-只有66.5万元用于7B。 H100 GPU小时。

Seaweed-7B训练效率。

与字节的低调相比，快手希望在视频生成领域营造出更大的气势。

4月15日，在新闻发布会上，Aautorapper高级副总裁、主站业务和社区科学线负责人盖坤用极高的评价为Aautorapper在视频生成领域的成就定下了基调:

“‘可灵’吹响了整个视频生成轨道的挑战哨。”“在我们之后，每个制造商都开始发送视频生成模型。”

的确，在2024年6月6日，Aautora的视频生成模式“可灵”，在众多“Sora期货”中，凭借大方的免费试用，创造了超过260万用户上线三个月的记录。

在视频领域，这也是字节与快手的第一次对抗。“可灵”的发布，曾经将字节置于追赶者的位置。直到2024年11月8日，字节才回到视频领域的第一梯队：Seaweed和PixelDance推出了视频生成平台即梦AI。

很多业内人士给出的评价是：2024年，在视频功能上，字节奋起猛追，最终与快手基本打成平手。

一年后的这场同场比赛，快手显然也不肯放弃技术第一的位置。

“世界大领先。”“继续领先。”“请允许我重复这两句话。”

当他拿出新答卷时，盖坤的几句话再次加热了场面。他宣布了Aautorapper在多模式领域的最新探索结果:图像生成底座模型“可图2.0”、视频生成底座模型“可灵2.0”和多模式编辑功能MVL。

就视频生成能力而言，“可灵2.0”的文生视频和图生视频能力都超过了谷歌的视频模型Veo2。在与老对手Sora的较量中，“可灵2.0”文生视频模型的输赢率甚至达到了367%。

“可灵2.0”能力。

DeepSeek的掀桌已经让业界意识到，模型决定了AI产品的上限。2025年，许多制造商采取了回归模型的行动。

字节和Aautorapper，目前对AI视频生成产品的野心是不一样的。据了解，字节对“即梦”的期待是AI时代的抖音，一种未来更ToC的商品。Aautorapper主要关注B端商业化的希望。

即便如此，2025年，两家厂商的共识仍然是：打磨视频底座模型，抢滩第一梯队。

据《晚点》报道，2025年字节图像视频创作平台“即梦”负责人张楠的OKR，其中之一就是重点打磨模型效果。2025年，“可灵”团队的目标也集中在盖坤说的四个字上:“继续领先”。

对字节和快手而言，至少在技术层面，视频生成领域的战争只会越来越激烈。

拼写性能，更拼落地

四月份的这次“对抗”，对于字节快手来说，并不只是一场视频模型性能的较量。

视频模型落地难已经是老生常谈了。除了模型效果不如预期之外，昂贵是视频模型普遍存在的问题。一个典型的案例是，为了覆盖高昂的推理成本，OpenAI Sora的订阅费用高达200美元。

可以看出，与2024年“炫技”相比，2025年的视频模型试炼场更加突出实用性和实惠性。

举例来说，虽然字节Seaweed-7B在性能上略逊于快手的上一代模型“可灵1.6”，但胜利在于部署成本相当低：只有40GB显存的单GPU，才能实现高分辨率(1280x720)视频的形成。

也就是说，中小型团队和个人创作者，也可以承受AI视频创作。

实际上，字节和快手的共识是：只有一个视频生成模型，目前还不能满足用户的创作需要。

在“可灵2.0”的新闻发布会上，Aautorapper还发布了图像生成模型“可图2.0”。这增强了指令遵循和欣赏的能力模型，在竞技场上超越了Midjourney v7、FLUX1和Rave.1 三种主流模式pro。

对于快手技术副总裁、可灵AI负责人张迪来说，图像能力是视频模型着陆不可或缺的一步。

他举了一组数据:图片视频占85%的“灵魂”视频。图片视频的高比例表明，在具体的视频创作过程中，更多的用户更喜欢用图片来确定风格，添加关键帧，从而获得更稳定的视频生成效果。

根据工作人员的介绍，“可灵”此次发布的“多模态编辑MVL功能”也是为了满足创作者对实时监控编辑的需求。

MVL多模态编辑功能。

多模式编辑MVL功能不仅支持文本Prompt，还支持图像和视频模式的动作描述文件。例如，用户可以上传一个新的视频，在原始视频中添加新视频中的角色。

快手重视图像，字节在文本处理方面发挥了优势。Seaweed-7B将字节“长前后文调优技术”与长叙事视频生成技术相结合。VideoAuteur”，使生成的视频能够基于用户的全局文本描述和分镜描述，保持一致性。

“全村的希望”和“一个都不能落下”

字节和快手，在视频领域登顶的野心是一样的，但是它所反映的业务情况，却是不同的。

除了大众熟知的“精兵战斗”故事之外，“可灵”从诞生到爆红，在快手的商业发展轨迹中，具有一定的随机性。

根据《智能出现》，直到2024年初，文生视频的一项核心技术才被可灵团队攻克。2024年3月，盖坤才第一次看到“可灵”的演示。

公司对AI的商业化预期，本来就不高。据《智能涌现》了解，快手商业化业务负责人王剑伟（Thomas）“AI商业化”并非“2024年Q4的OKR”O（Objectives，目标)，只是“成长”下的一个“目标”kr（ Key Results，关键结果)”。

Aautorapper已经很久没有新的故事了。作为一家也是通过短视频业务成长起来的互联网公司，Aautorapper的业务版图并不比字节广泛。直到2023年，Aautorapper收入的核心是短视频平台的在线推广、直播和电商。

但是“可灵”的出现，让快手看到了除了短视频之外的新增长曲线。

根据Aautorapper的财务报告，从2024年9月开放API服务到2025年2月，可灵AI的累计收入已经超过1亿元。在客户方面，盖坤在本次发布会上透露，“可灵”目前拥有2223万用户，月活用户数量增长25倍，全球企业和开发者客户数量已超过15万。

“可灵”不仅自己造血，还利用快手的相关业务。快手商业营销服务平台“磁引擎”的一名员工曾告诉《智能的出现》，“可灵”给快手的广告业务带来了显著的增长：

“大客户一个月花十几万做投流，广告资料可以AI生成。一个编辑一天最多剪10个广告资料，但是灵魂可以生成成千上万的广告资料。我们可以在一天内用算法将成千上万的广告资料分发给客户的推荐流程。”

对于快手来说，“可灵2.0”的发布是“全村希望”的延续。

与单点奇袭的快手相比，字节在视频生成跑道上，有更重的好学生负担。

在过去的两年里，字节在AI领域的重兵投资有目共睹，从人、计算率到金钱。然而，文本模型领域有DeepSeek，视频模型领域有灵性。语音模型和MiniMax的海螺AI是分不开的——字节什么都抓了，但似乎什么都没抓住。

从痛苦的经历中吸取教训，自2025年春天以来，字节内部发生了一场改革。2025年3月，AI部门“Seed“新教练，原Google 吴永辉在部门全体会议上提到，要进一步加强组织文化，营造开放、宽容、自信的团队研究氛围；提高技术开放度。

Seaweed-7B的发布，是字节AI改革后的注脚。

Seaweed已经成为3月份豆包第一次公开文生图技术报告后字节在视频领域的第一个公开技术报告模型。值得注意的是，曾经被字节视为秘密的研究团队，蒋路、冯佳时、杨振恒、杨建超，这次也是第一次以技术报告签名的形式集体走上舞台。

重组旗鼓之后，双方的较量，才刚刚开始。

欢迎交流！

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

娱乐圈第一美男子「下海」，悄悄地赚疯了？

2025，不沾点具体智能不算“弄潮儿”

贝壳获得2024年未来城市大奖。智能工地成为数字生活应用的标杆案例

饿了么“踏青”搜索量增长30倍，带动服装等多品牌业务增长。

终极停车难！这家公司利用大数据为停车业务发挥“新创意”