半年过去了，AI视频卷到哪里了？

2024-07-24

自从Sora今年年初出现以来，国内外都想用AI颠覆好莱坞。最近的AI视频圈非常热闹，产品一个接一个的发布，大家都喊着要赶上Sora。

旧金山人工智能科技公司Luma推出Dreama，两家海外AI视频创业公司率先开战。 Machine视频生成模型，扔出可以称之为电影级别的宣传片，产品也免费给用户试用；Runway，另一家在AI视频领域享有盛誉的创业公司，也宣布将获得Gen-3 Alpha模型向部分用户开启测试，称可以生产光影等细节。

中国也不甘示弱。在Aautorapper推出的可灵Web端，客户可以生成长达10秒的视频内容，还具有头尾帧控制和相机镜头控制功能。其原创AI奇幻短剧《山海奇镜之劈波斩浪》也在Aautorapper播出，画面全部由AI生成。AI科幻短剧《三星堆:未来启示录》也在近期播出，制作了字节下的AI视频产品即梦。

AI视频的更新速度如此之快，让很多网友大呼“好莱坞可能又要罢工了。”

现在AI视频跑道上有谷歌，微软，Meta，国内外科技、互联网大佬，如阿里、字节、美图等，也有Runway。、爱诗科技等新秀企业，「定焦」据不完全统计，仅国内就有约20家公司推出了自研AI视频产品/模型。

根据头豹研究院的数据，2021年中国AI视频生成产业的市场规模为800万元，预计2026年将达到92.79亿元。许多业内人士认为，Midjourney将在2024年生成视频跑道。

世界各地的Sora已经发展到什么阶段？谁是最强的？AI能杀死好莱坞吗？

1 围攻Sora：商品虽然多，可以少用

AI视频跑道推出了很多产品/模型，但是真正能让大众使用的非常有限。，Sora是海外的杰出代表。半年后，它仍在内部测试中，只对安全团队和一些视觉艺术家、设计师和电影制作人开放。国内情况也差不多。阿里达摩院的AI视频产品“寻光”、百度的AI视频模型UniVG正处于内部测试阶段。对于目前正在淬火的Aautorapper来说，客户需要排队申请才能使用，这已经削减了一半以上的商品。

在剩下的AI视频产品中，部分设置了使用门槛，用户需要付费或了解某些技术。比如六晨科技的Open。-Sora，若不懂一点代码知识，用户就无从下手。

「定焦」整理国内外发布的AI视频产品，发现每个家庭的操作方法和功能都差不多。客户首先用文字生成指令，同时选择幅度、图像清晰度、生成风格、生成秒数等功能，最后点击一键生成。

这一功能背后的技术难度各不相同。在这些困难中，生成视频的清晰度和秒数，在宣传过程中，这也是AI视频跑道各家竞争的重点，在训练过程中使用的材料质量与计算率密切相关。

Cyrus告诉AI研究者「定焦」，现在国内外大部分AI视频都支持生成480p/720p，也有少数超清视频支持1080p。

他介绍，高质量的材料越多，计算率越高，训练出来的模型可以生成更高质量的视频，但并不意味着高质量的材料计算率就可以生成高质量的材料。但是，如果你想强制生成高分辨率的视频，用低分辨率的材料训练模型会崩溃或重复，比如多手多脚。这种问题可以通过放大、修复、重绘来解决，但效果和细节一般。

许多企业也把生成秒数作为卖点。

国内大部分AI视频支持2-3秒，可以达到5-10秒，被认为是比较强势的产品。有些产品很卷，比如即梦最多12秒，但是大家都不如Sora。它曾经说过，最长可以产生60秒的视频，但主要表现无法验证，因为它还没有开放使用。

光卷时间不够，视频内容也要合理。石榴AI首席研究员张恒对「定焦」表示:从技术上讲，有权要求AI一直导出。毫不夸张地说，即使生成一个小时的视频，也不是问题，但很多时候，我们想要的不是一个监控视频，也不是一个循环的风景画动画，而是一个画面精美、有故事的短片。

「定焦」对国内热门的5款免费文生视频AI产品进行了测试，即字节即梦，Morph AI的Morph Studio、PixVerser爱诗科技、艺术AIMewXAI、Vega，右脑技术 AI，给他们一个同样的指令：“一个穿着红裙子的小姑娘，在公园里，喂一只白兔吃胡萝卜。”

几个产品的形成速度差不多，只需要2-3分钟，但是清晰度和时间差别很大，准确度也是“群魔乱舞”。，得到的结果如下：

艺映AI

Vega AI

即梦

Morph

Pix Verse

每个家庭的优缺点都很明显。也就是说，梦想赢在时间上，但生成质量不高，主角小女孩在后期直接变形，Vega AI也是同样的问题。PixVerse的画质相对较差。

相比之下，Morph生成的内容非常准确，但只有2秒钟。艺术和电影的画质也不错，但是对文字的理解不到位，直接失去了兔子这个关键元素，生成的视频不够逼真，偏向漫画风格。

总而言之，没有一种商品能够给出一个符合要求的视频。

2 AI视频难题：准确、一致、多样

「定焦」体验效果与各家公布的宣传视频有很大不同，AI视频要想真正商业化，还有很长的路要走。

张恒告知「定焦」，从技术角度来看，他们主要从三个维度考虑不同的AI视频模型水平：准确、一致、多样。

张恒举了一个如何理解这三个维度的例子。

举例来说，制作一个“两个女孩在操场上看篮球比赛”的视频。

准确性体现在:第一，准确理解内容结构。比如视频里有两个女生；第二，过程控制的准确性。比如投球后，篮球要从篮网逐渐减少；最后，静态数据建模是准确的。比如镜头有障碍物的时候，篮球不能变成橄榄球。

一致性是指AI在时间和空间上的建模能力，包括主要注意力和长期注意力。

主要注意力可以理解为，在看篮球比赛的过程中，两个小女孩应该一直呆在画面里，不要随便跑；长期注意力是视频中的每一个元素在运动过程中都不能丢失或变形。

多样性是指AI也有自己的逻辑，即使在没有文字提示的情况下，也能产生一些合理的细节。

上述层面，市场上出现的AI视频工具基本上都没有完全做到，各家也在不断地提出解决办法。

举例来说，在视频中非常重要的人物一致性方面，也就是梦想，可灵想到了用。图片视频取代文字视频。也就是说，用户先用文字生成图片，然后用图片生成视频，或者直接给出一两张图片，AI把它连接成一个移动的视频。

张恒告诉我们：“但是这并不是一个新的技术突破，而且图片视频的难度要低于文生视频，「定焦」，文字视频的原理是，AI首先分析用户输入的文本，将其拆解成一个成分镜描述，将描述转换成文本，然后转换成照片，从而获得视频的中间关键帧。通过连接这些图片，可以获得持续的动作视频。而且图片视频相当于给AI一张可以模仿的实际照片，产生的视频将延续照片中的人脸特征，实现主角的一致性。

他还表示，在实际场景中，图片视频的效果更符合客户的预期。由于文字表达画面细节的能力有限，有照片作为参考会有助于生成视频，但目前还没有达到商业水平。直观来说，5秒是图片视频的上限。如果超过10秒，可能意义不大。要么内容重复，要么结构扭曲，质量下降。

如今许多声称使用AI进行全过程制作的影视短片，大多采用图片视频或视频到视频。

即梦使用尾帧功能也使用了图生视频，「定焦」经过特别尝试，结果如下：

人物在组合过程中变形、失真。

Cyrus还表示，视频注重连贯性，很多AI视频工具通过单帧照片推断后续动作来支持图片转移视频。目前，他们仍然在寻找运气来推断是否正确。

据了解，在推动主角一致性方面，文生视频并非纯粹依靠数据生成。张恒说，大部分模型都是基于原来的底层DIT模型，叠加各种技术，比如ControlVideo(哈尔滨工业大学和华为云提出的可控文本-视频生成方法)，从而加深AI对主角面部特征的记忆，让人的脸在运动过程中不会有太大的变化。

然而，目前还处于试验阶段，即使做了技术叠加，也没有完全处理好人物一致性问题。

3 为什么AI视频进化缓慢？

美国和中国现在是AI圈最卷的国家。

“2023年全球最具影响力的人工智能学者”(以下简称“AI 根据2020-2023年全球“2000学者”名单)的相关报告，我们可以看到。AI 在4年累计的1071家机构中，美国有443家，其次是中国，从2023年开始，有137家。AI 根据国家分布的2000学者，美国当选人数最多，共1079人，占全球总量的54.0%，其次是中国，共有280人入选。

近两年来，AI在文生图、文生音乐等方面取得了很大的进步，最难突破的AI视频也取得了一些突破。

在最近举行的世界人工智能大会上，永恒资本合作伙伴乐元明确表示，近两三年来，视频生成技术取得了远远超出预期的进步。新加坡南洋理工大学助理教授刘子纬认为，视频生成技术目前处于GPT-3 距离完善还有半年左右的时间。

然而，乐元也强调，它的技术实力仍然不足以支撑大规模商业化，在视频相关应用范围内，基于语言模型开发应用所采用的方法论和测试，同样适用于。

年初，Sora的出现震惊了全世界。DiT基于transformer架构的新型扩散模式进行了扩散和生成的技术突破，提高了图像生成的质量和现实主义，促进了AI视频的重大进步。 Cyrus表示，目前国内外的文生视频，大多采用类似的技术。

此时此刻，我们的底层技术基本一致。虽然每个家庭都在此基础上寻找技术突破，但更多的是培训数据，从而丰富产品功能。

即梦和Morph用户使用字节。 AI的Morph 在Studio中，可以选择视频的运镜方式，其背后的原理是数据不同。

“以前每个家庭在实践中使用的照片都比较简单，更多的是标注图片中存在的元素，但是没有说明这个元素是用什么样的镜头拍摄的，这也让很多公司发现了这个缺口，所以用3D渲染视频数据来补充镜头的特点。”张恒说，这些数据目前来自影视行业和游戏公司的效果图。

「定焦」还尝试了这个功能，但是镜头的变化并不明显。

Sora之所以比GPT更好？、Midjourney之所以发展缓慢，是因为它又搭建了一条时间线，而且训练视频模型比文字、照片更难。张恒说：“现在可以使用的视频训练数据，已经被发掘出来了，我们也在想一些新的方法来制作一系列可以用来训练的数据。

而且每一个AI视频模型都有自己擅长的风格，就像快手可灵做的吃播视频一样，因为这背后有很多这样的数据支持。

石榴AI创始人沈仁奎认为，Textt是AI视频的技术。 to video(文字转视频)，Image to video(图片转视频)，Video to video(视频转录)，Avatar to video(数字人)，能够定制形象和声音的数字人，已应用于市场营销领域，达到商业水平，而且文生视频也要处理精度和可控性的问题。

此时此刻，无论是由Tiktok和博纳合作的AI科幻短剧《三星堆:未来启示录》，还是Aautorapper原创AI奇幻短剧《山海奇镜之劈波斩浪》，更多的是大型公司主动找影视制作团队合作，需要推广自己的技术产品，作品也不受欢迎。

AI在短视频领域还有很长的路要走，干掉好莱坞的说法更早。

本文来自微信微信官方账号“定焦”，作者：王璐，编辑：魏佳，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

机票“买低退高”是新举措还是个案？多家航空公司表示？→

大型模型的风向发生了变化，OpenAI苹果调头。

夏季旅游客运突查行动在我市进行

【企业便民话改革】主城区政府产权保障房交换机制全面优化

冀南新区【利企便民话改革】:创新数字赋能推动特种设备智能化管控

项目推荐

迪瓜租机

康老板 · 氧疗堂