半年过去了,AI视频卷到哪里了?
自从Sora今年年初出现以来,国内外都想用AI颠覆好莱坞。最近的AI视频圈非常热闹,产品一个接一个的发布,大家都喊着要赶上Sora。
旧金山人工智能科技公司Luma推出Dreama,两家海外AI视频创业公司率先开战。 Machine视频生成模型,扔出可以称之为电影级别的宣传片,产品也免费给用户试用;Runway,另一家在AI视频领域享有盛誉的创业公司,也宣布将获得Gen-3 Alpha模型向部分用户开启测试,称可以生产光影等细节。
中国也不甘示弱。在Aautorapper推出的可灵Web端,客户可以生成长达10秒的视频内容,还具有头尾帧控制和相机镜头控制功能。其原创AI奇幻短剧《山海奇镜之劈波斩浪》也在Aautorapper播出,画面全部由AI生成。AI科幻短剧《三星堆:未来启示录》也在近期播出,制作了字节下的AI视频产品即梦。
AI视频的更新速度如此之快,让很多网友大呼“好莱坞可能又要罢工了。”
现在AI视频跑道上有谷歌,微软,Meta,国内外科技、互联网大佬,如阿里、字节、美图等,也有Runway。、爱诗科技等新秀企业,「定焦」据不完全统计,仅国内就有约20家公司推出了自研AI视频产品/模型。
根据头豹研究院的数据,2021年中国AI视频生成产业的市场规模为800万元,预计2026年将达到92.79亿元。许多业内人士认为,Midjourney将在2024年生成视频跑道。
世界各地的Sora已经发展到什么阶段?谁是最强的?AI能杀死好莱坞吗?
1 围攻Sora:商品虽然多,可以少用
AI视频跑道推出了很多产品/模型,但是真正能让大众使用的非常有限。,Sora是海外的杰出代表。半年后,它仍在内部测试中,只对安全团队和一些视觉艺术家、设计师和电影制作人开放。国内情况也差不多。阿里达摩院的AI视频产品“寻光”、百度的AI视频模型UniVG正处于内部测试阶段。对于目前正在淬火的Aautorapper来说,客户需要排队申请才能使用,这已经削减了一半以上的商品。
在剩下的AI视频产品中,部分设置了使用门槛,用户需要付费或了解某些技术。比如六晨科技的Open。-Sora,若不懂一点代码知识,用户就无从下手。
「定焦」整理国内外发布的AI视频产品,发现每个家庭的操作方法和功能都差不多。客户首先用文字生成指令,同时选择幅度、图像清晰度、生成风格、生成秒数等功能,最后点击一键生成。
这一功能背后的技术难度各不相同。在这些困难中,生成视频的清晰度和秒数,在宣传过程中,这也是AI视频跑道各家竞争的重点,在训练过程中使用的材料质量与计算率密切相关。
Cyrus告诉AI研究者「定焦」,现在国内外大部分AI视频都支持生成480p/720p,也有少数超清视频支持1080p。
他介绍,高质量的材料越多,计算率越高,训练出来的模型可以生成更高质量的视频,但并不意味着高质量的材料计算率就可以生成高质量的材料。但是,如果你想强制生成高分辨率的视频,用低分辨率的材料训练模型会崩溃或重复,比如多手多脚。这种问题可以通过放大、修复、重绘来解决,但效果和细节一般。
许多企业也把生成秒数作为卖点。
国内大部分AI视频支持2-3秒,可以达到5-10秒,被认为是比较强势的产品。有些产品很卷,比如即梦最多12秒,但是大家都不如Sora。它曾经说过,最长可以产生60秒的视频,但主要表现无法验证,因为它还没有开放使用。
光卷时间不够,视频内容也要合理。石榴AI首席研究员张恒对「定焦」表示:从技术上讲,有权要求AI一直导出。毫不夸张地说,即使生成一个小时的视频,也不是问题,但很多时候,我们想要的不是一个监控视频,也不是一个循环的风景画动画,而是一个画面精美、有故事的短片。
「定焦」对国内热门的5款免费文生视频AI产品进行了测试,即字节即梦,Morph AI的Morph Studio、PixVerser爱诗科技、艺术AIMewXAI、Vega,右脑技术 AI,给他们一个同样的指令:“一个穿着红裙子的小姑娘,在公园里,喂一只白兔吃胡萝卜。”
几个产品的形成速度差不多,只需要2-3分钟,但是清晰度和时间差别很大,准确度也是“群魔乱舞”。 ,得到的结果如下:
艺映AI
Vega AI
即梦
Morph

Pix Verse
每个家庭的优缺点都很明显。也就是说,梦想赢在时间上,但生成质量不高,主角小女孩在后期直接变形,Vega AI也是同样的问题。PixVerse的画质相对较差。
相比之下,Morph生成的内容非常准确,但只有2秒钟。艺术和电影的画质也不错,但是对文字的理解不到位,直接失去了兔子这个关键元素,生成的视频不够逼真,偏向漫画风格。
总而言之,没有一种商品能够给出一个符合要求的视频。
2 AI视频难题:准确、一致、多样
「定焦」体验效果与各家公布的宣传视频有很大不同,AI视频要想真正商业化,还有很长的路要走。
张恒告知「定焦」,从技术角度来看,他们主要从三个维度考虑不同的AI视频模型水平:准确、一致、多样。
张恒举了一个如何理解这三个维度的例子。
举例来说,制作一个“两个女孩在操场上看篮球比赛”的视频。
准确性体现在:第一,准确理解内容结构。比如视频里有两个女生;第二,过程控制的准确性。比如投球后,篮球要从篮网逐渐减少;最后,静态数据建模是准确的。比如镜头有障碍物的时候,篮球不能变成橄榄球。
一致性是指AI在时间和空间上的建模能力,包括主要注意力和长期注意力。
主要注意力可以理解为,在看篮球比赛的过程中,两个小女孩应该一直呆在画面里,不要随便跑;长期注意力是视频中的每一个元素在运动过程中都不能丢失或变形。
多样性是指AI也有自己的逻辑,即使在没有文字提示的情况下,也能产生一些合理的细节。
上述层面,市场上出现的AI视频工具基本上都没有完全做到,各家也在不断地提出解决办法。
举例来说,在视频中非常重要的人物一致性方面,也就是梦想,可灵想到了用。图片视频取代文字视频。也就是说,用户先用文字生成图片,然后用图片生成视频,或者直接给出一两张图片,AI把它连接成一个移动的视频。
张恒告诉我们:“但是这并不是一个新的技术突破,而且图片视频的难度要低于文生视频,「定焦」,文字视频的原理是,AI首先分析用户输入的文本,将其拆解成一个成分镜描述,将描述转换成文本,然后转换成照片,从而获得视频的中间关键帧。通过连接这些图片,可以获得持续的动作视频。而且图片视频相当于给AI一张可以模仿的实际照片,产生的视频将延续照片中的人脸特征,实现主角的一致性。
他还表示,在实际场景中,图片视频的效果更符合客户的预期。由于文字表达画面细节的能力有限,有照片作为参考会有助于生成视频,但目前还没有达到商业水平。直观来说,5秒是图片视频的上限。如果超过10秒,可能意义不大。要么内容重复,要么结构扭曲,质量下降。
如今许多声称使用AI进行全过程制作的影视短片,大多采用图片视频或视频到视频。
即梦使用尾帧功能也使用了图生视频,「定焦」经过特别尝试,结果如下:
人物在组合过程中变形、失真。
Cyrus还表示,视频注重连贯性,很多AI视频工具通过单帧照片推断后续动作来支持图片转移视频。目前,他们仍然在寻找运气来推断是否正确。
据了解,在推动主角一致性方面,文生视频并非纯粹依靠数据生成。张恒说,大部分模型都是基于原来的底层DIT模型,叠加各种技术,比如ControlVideo(哈尔滨工业大学和华为云提出的可控文本-视频生成方法),从而加深AI对主角面部特征的记忆,让人的脸在运动过程中不会有太大的变化。
然而,目前还处于试验阶段,即使做了技术叠加,也没有完全处理好人物一致性问题。
3 为什么AI视频进化缓慢?
美国和中国现在是AI圈最卷的国家。
“2023年全球最具影响力的人工智能学者”(以下简称“AI 根据2020-2023年全球“2000学者”名单)的相关报告,我们可以看到。AI 在4年累计的1071家机构中,美国有443家,其次是中国,从2023年开始,有137家。AI 根据国家分布的2000学者,美国当选人数最多,共1079人,占全球总量的54.0%,其次是中国,共有280人入选。
近两年来,AI在文生图、文生音乐等方面取得了很大的进步,最难突破的AI视频也取得了一些突破。
在最近举行的世界人工智能大会上,永恒资本合作伙伴乐元明确表示,近两三年来,视频生成技术取得了远远超出预期的进步。新加坡南洋理工大学助理教授刘子纬认为,视频生成技术目前处于GPT-3 距离完善还有半年左右的时间。
然而,乐元也强调,它的技术实力仍然不足以支撑大规模商业化,在视频相关应用范围内,基于语言模型开发应用所采用的方法论和测试,同样适用于。
年初,Sora的出现震惊了全世界。DiT基于transformer架构的新型扩散模式进行了扩散和生成的技术突破,提高了图像生成的质量和现实主义,促进了AI视频的重大进步。 Cyrus表示,目前国内外的文生视频,大多采用类似的技术。

此时此刻,我们的底层技术基本一致。虽然每个家庭都在此基础上寻找技术突破,但更多的是培训数据,从而丰富产品功能。
即梦和Morph用户使用字节。 AI的Morph 在Studio中,可以选择视频的运镜方式,其背后的原理是数据不同。
“以前每个家庭在实践中使用的照片都比较简单,更多的是标注图片中存在的元素,但是没有说明这个元素是用什么样的镜头拍摄的,这也让很多公司发现了这个缺口,所以用3D渲染视频数据来补充镜头的特点。”张恒说,这些数据目前来自影视行业和游戏公司的效果图。
「定焦」还尝试了这个功能,但是镜头的变化并不明显。
Sora之所以比GPT更好?、Midjourney之所以发展缓慢,是因为它又搭建了一条时间线,而且训练视频模型比文字、照片更难。张恒说:“现在可以使用的视频训练数据,已经被发掘出来了,我们也在想一些新的方法来制作一系列可以用来训练的数据。
而且每一个AI视频模型都有自己擅长的风格,就像快手可灵做的吃播视频一样,因为这背后有很多这样的数据支持。
石榴AI创始人沈仁奎认为,Textt是AI视频的技术。 to video(文字转视频),Image to video(图片转视频),Video to video(视频转录),Avatar to video(数字人),能够定制形象和声音的数字人,已应用于市场营销领域,达到商业水平,而且文生视频也要处理精度和可控性的问题。
此时此刻,无论是由Tiktok和博纳合作的AI科幻短剧《三星堆:未来启示录》,还是Aautorapper原创AI奇幻短剧《山海奇镜之劈波斩浪》,更多的是大型公司主动找影视制作团队合作,需要推广自己的技术产品,作品也不受欢迎。
AI在短视频领域还有很长的路要走,干掉好莱坞的说法更早。
本文来自微信微信官方账号“定焦”,作者:王璐,编辑:魏佳,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




