文生视频大模型,短视频转弯点?
由于Sora今年年初诞生,这种能创建近一分钟视频的文生视频模式成为国内厂商追捧的焦点。
6月初,Aautora开发的视频生成大模型“灵魂”正式上线。灵魂AI采用了类似Sora的技术路线,可以生成具有合理运动和模拟物理世界特征的视频。
截至目前,已有100多万人排队申请内部测试资格,其中30多万人已取得试用资格,共生成短视频700多万条。近日,可灵AI终于宣布全面开放内部测试,并推出付费会员制度。
其它厂商也在快速跟进。七月份,智谱AI 推出AI生成视频模型智谱清言,用户可以在30秒内免费生成6秒视频。
目前,被称为“国产版Sora”的可灵AI不仅非常受欢迎,而且受到客户的良好评价。在Sora问世却始终没有完善产品的背景下,可灵AI甚至被视为“行业最佳”。
文生视频大模型目前效果如何?为什麽厂商开始卷文生视频大模型?对短片的竞争格局会有什么影响?
剑走偏锋,“可灵”大力创造奇迹
可灵AI上线还不到两个月,已经经历了三次迭代更新。从最初的文化视频到现在,可以支持图片视频、视频继写、多尺寸选择,大大提高了生成细节、构图、镜面运输的美感和光影。
根据Aautorapper视觉生成与互动中心负责人万鹏飞的说法,可灵AI生成的视频分辨率高达1080p,最长时间可达2分钟(帧率30fps),一次文生视频的时长已经增加到10秒,这一指标已经超过了目前市场上大多数视频生成工具。

目前有相当多的大厂商和创业公司布局文生视频轨道,但大部分都没有公布文生视频模型的参数值水平,Aautorapper也表示“不便透露”。因此,所有企业都专注于生成视频的时间和视频的分辨率。
目前只有Sora是唯一一个能够实现“分钟级”内容生产能力的超清视频,可以生成长达60秒的超清视频。现在可灵AI刷新了这个指标,将生成视频的时间延长到2分钟。
纵观其他类似的竞争产品,腾讯宣布生成文字视频模型的时间为16秒,预计第三季度为20秒。字节“即梦”最长支持生成12秒视频;美国企业Runway支持生成10秒左右的视频,最多可以延长到18秒,但大多数文字视频产品的形成时间在10秒左右。
所以,光看“时间”这一点,可灵AI确实暂时处于领先地位;从“生成内容”的角度来看,大多数用户的评价都是“远远超出预期”。
例如,与Runway的Gen-3相比,它只有文学视频功能,但没有图片视频功能;通过迭代新增的镜头控制、头尾帧定制等功能,可灵AI也赢得了用户的一致好评。
当然,可灵AI也不是“完美”。有用户认为很容易掌握艺术风格和摄影语言,但在“吃”领域,可灵AI的表现比其他产品更好,这可能与Aautorapper短视频更擅长真实画风有关。
虽然目前不能说可灵AI已经能够在行业内“一骑绝尘”,但至少已经达到了“一鸣惊人”的目标。这样的成绩背后,是Aautorapper版的“大力创造奇迹”。
程一笑,一个程序员,一个快手CEO,早在去年年初就开始了一个新的AI策略,专注于大语言模型、视觉生成模型、多模式模型等方向。
去年10月,Aautorapper重启了一个名为“噗叽”的项目,这是一个工具软件,将静态图片生成Gif表情包,也是AI的前身。
真正的变量是Sora今年年初的重磅发布,这让万鹏看到了DiT(新视频生成架构)的可行性,于是Aautora开始探索打造“中国版Sora”。
据媒体“硅星人Pro”报道,可灵项目启动后不到一个月,就得到了程一笑的支持,上升为企业战略项目。可灵团队也很清楚,项目要赶在前面,抢占市场第一,否则毫无意义。
可灵人工智能从3月到6月推出只花了三个月。除了快手内部的资金和资源外,技术牛的加入也加速了可灵项目的研发和创新。例如,曾任腾讯人工智能实验室高级研究员的王新涛加入了快手视觉生成与互动中心。
引用知乎用户“小林不加班”的回答,可灵AI采用了类似Sora的技术路线,结合多项自主研发创新技术,优化了视频处理、生成能力和空间压缩。这三个问题促进了模型效率和性能的提高,捕捉到了更广阔的特征范围,增强了模型识别细节的能力。

大厂加速,下注下一次爆炸
根据晚点LatePost的报道,今年第一季度,字节是“中国版Sora”,这不仅仅是快手, AI R&D部门优先考虑视频生成模型;年初百度推出的视频生成模型UniVG也被业界视为Runway。 Gen-2相当。
另外,开源产品在文生视频领域的能力也在提高。今年三月,六晨科技开源了其Open。-Sora 1.0视频生成模型目前可以一次生成20秒左右的视频。随着开源平台的普及和技能的提高,未来可能会有更多的文化视频应用。当然,也有Sora,业界认可的最强对手。
一方面,制造商纷纷下注,因为行业内确实有大量的需求。与语言相比,视频和图片更接近文字,包括美图在内的一些国内企业早已支持“一键AI美颜”的功能。
另一方面,随着“百模对决”的逐渐退热,目前的大模型公司不再盲目追求通用大模型规模,而是更倾向于将大模型整合到产品和服务中,解决实际问题,创造真正的商业价值。
快手之所以能先获得第一名,是因为快手作为头部短视频平台,积累了大量的视频内容,同时通过智能算法对这些内容进行了详细的分类和标注。这些视频数据已经“清理干净”,可以直接用于可灵AI。
然而,在硬件储备方面,Aautorapper和英伟达一直在基于视频处理的深度合作。早在2019年,Aautorapper就与英伟达联合部署了GPU计算系统架构,可以使业务性能平均增长两倍,节省了之前的成本。 30% 上述。快手在计算率方面的未雨绸缪,也为快速推进可灵项目奠定了基础。
最后,当然是Aautorapper给可灵项目最大的资源协调。与字节、阿里、腾讯等大厂商不同,他们不仅要投资一般大模型的研发,还有不止一个AIGC项目,“桃子”那么多,似乎还要看时机。
然而,即使可灵AI已经“先跑一步”,也不意味着它可以坐以待毙,放松身心。首先,文生视频领域没有断层式的领先水平。
爱诗科技创始人王长虎表示,Sora最重要的贡献是验证视频生成规模法则。自今年年初以来,Sora的出现验证了一条技术可行性的道路,因为Sora的出现验证了文化视频领域的快速发展。
然而,由于文化视频在技术上没有秘密,下一步类似的产品无非是计算率规模、培训数据等。业内人士预测,目前各大模型厂商都有视频生成能力,但由于计算成本和视频效果,并没有全面启动,但这只是时间问题。
其次,如果只谈计算率,Aautora在中国只是第二梯队。中信证券简单估计生成60帧视频(6到8秒左右),Sora至少生成120万个token,推理计算能力的需求远远大于文学生文学。
如果可灵人工智能继续迭代,它将对快手提出更高的算率要求。经过全面的第一次测试,快手是否能继续增加用户生成视频的时间,等待时间是否会越来越长,其算率的“天花板”在哪里,恐怕只有快手自己知道。
事实上,包括Aautorapper在内的国内同行在文学视频领域采用了更现实的推动方式,即维持R&D进度,分阶段地产出。简单来说,就是先做产品再优化,先抓进度,先赢市场。
快手试水商业化,意在生态。
根据Similarweb数据,6月初可灵AI开通后,网站客户流量呈上升趋势,7月份客户峰值接近10万DAU水平。根据月狐iApp的数据,7月后周均DAU比6月初增加了100万左右,接入可灵AI的快影App。
灵魂AI客户快速增长的背后,一方面是客户对文化视频的“好奇”。月狐数据分析了灵魂AI相关的社交媒体用户评价数据,客户的情绪表现为好奇、兴奋、期待和满足。
另一方面,快手也是不可或缺的。比如在快手平台上,带有#可灵#相关话题标签的作品会得到更多的流量支持;可灵人工智能还推出了人工智能相关信息创作活动,包括可灵人工智能 x 快速视频创作大赛,复活古画定向话题投稿活动。
用户数量是产品商业化的土壤。基于此,可灵商业化的想象空间得到了进一步打开。目前,可灵AI已经推出了付费会员制度,分为黄金、铂金和裸钻。月卡价格分别为66元、266元和666元,相应生成约66个、300个或800个标准视频。

比较Runway Gen-3 Alpha每月最低12美元;Luma Dream 专业版Machine29.99 美元/120次价格,可灵AI的定价并不高。而且,据接近快手的人士透露,可灵AI暂时没有商业计划。
这意味着通过会员模式盈利不是灵魂的主要目的。万鹏曾公开表示,视频创作的门槛和ROI质量(灵魂出现后)大幅提升,视频创作者与消费者的界限逐渐模糊,越来越多的客户成为创作者,对视频创作生态的繁荣非常有价值。
以最近的《山海奇镜之劈波斩浪》和《三星堆:未来启示录》为例。前者是抖音和博纳合作的AI科幻短剧,后者是Aautorapper原创的AI奇幻短剧。毫无疑问,AI技术可以在很大程度上丰富平台内容。
所以,争夺更多的内容创作者,繁荣快手平台生态,才是可灵AI的重中之重。根据快手2024年第一季度的财务报告,快手实际月活人数为6.97亿,较上一季度环比下降0.4%,呈现流失趋势。
通过引入可灵人工智能,不仅可以帮助创作者降低创作门槛,提高短视频制作的效率和效果,还可以为快手的内容生态注入新的能量。例如,在哔哩哔哩和其他内容平台中,使用人工智能第二创新视频已经成为一个热门话题,在快手平台上也有许多关于影视的插图创作。
但在帮助内容创作者实现的同时,Aautorapper也做了一个“提前量”。今年6月,Aautorapper电商公布了利用AIGC能力直播的倡议公告,鼓励商家/专家与老铁互动良好。但与其他实时直播内容相比,平台不会对使用AIGC能力帮助创作的内容给予特殊的流量支持,防止商家滥用AIGC带来大量低质量的视频内容。
或许,可灵AI并不是快手内容生态的“神丹妙药”,但是有噱头就有热度,现在快手需要的就是这种“繁荣”。
近年来,快手的直播收入呈下降趋势,但今年第一季度,其广告和电子商务业务均呈双位数增长,这意味着快手从去年年底开始开放泛货架场景流量入口的策略已经有效。但货架电子商务的核心是搜索,这驱使快手把内容繁荣放在第一位,只有更受欢迎,才会有更多的搜索。
下一步,在AIGC时代,探索新的内容形式将是短视频发展的必由之路,而快手的“一小步”将是整个短视频产业的“起步”。
虽然Aautorapper似乎无意加快商业化,但灵性AI肯定需要商业化。毕竟烧钱上亿的大模型是无底洞的吞金野兽,Aautorapper无限提供子弹。
更有可能将注意力从C转移到B端。据内部人士透露,可灵AI将部分内部测试名额交给电子商务合作频繁的MCN机构,如遥望科技和大品牌,也可能考虑测试电子商务行业的材料。
有业内人士表示,拍摄一个高质量的3D动画视频,成本要按秒计算,几十万的成本下不去,灵魂和Sora的出现可以增强。例如,如果视频中的一个镜头不起作用,它将被AI视频填充。
当然,为了达到这种效果,整个视频制作大模型产业还需要不断进化,但对于“灵魂”来说,这种路径更加现实,不仅可以改变短视频生态,还可以赋能产业端,比如学习中爆款视频的文本结构,一键生成与商家产品材料相匹配的视频。
目前各大厂商都在卷大模型,但正如百度李彦宏所说,应用是大模型的基础。“灵魂”的第一步是繁荣内容生态,但更重要的是第二步。如何让大模型赋能生态,给平台带来增量效益,是“灵魂”应该考虑的问题。
本文来自微信微信官方账号“伯虎财经”(ID:bohuFN),作者:伯虎队,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




