Sora来了,即梦可灵松了一口气。

2024-12-12

Sora在全网苦等了10个月,终于出现了。


OpenAI直播第三弹于北京时间12月10日凌晨,宣布其视频生成模式Sora正式向公众推出。


自今年2月首次公布以来,Sora只为一些艺术家、著名演员和导演提供试用服务,但还没有上线,引起了公众的食欲。一经发布,立即激发了全球网友的热情,爆炸了服务器。


「定焦One」注意到,与上一个版本相比,这次的Sora Turbo支持生成1080p分辨率和最长20秒的视频,在持续时间上取得了显著突破。更重要的是,它提供“编辑”服务。除了简单的文化视频、图片视频和视频生成视频外,用户还可以通过指令实现视频重混、再编辑、循环、混合等功能,更像是视频编辑的强化版本。


在Sora正式发布之后,一个问题也被摆上了舞台:国内的Sora们,准备好迎接挑战了吗?


「定焦One」第一时间进行了实测对比,对于结果,远没有想象中那么糟糕。


新版本的Sora,不仅仅是文生视频


结合多位业内人士的观点,Sora的变化主要集中在两个方面。


一是时间,Sora Turbo支持一次生成最长20秒的文字、照片或视频。 (之前发布的演示视频最长时间为60秒,但不是公开使用的版本),有宽屏、坚屏、方屏的比例可供选择。然而,国内大多数AI视频生成软件一次只支持5-10秒。


能够产生的视频时间越长,对其内容的一致性、避免重复、衔接过渡的要求就越高,模型的优化和培训数据的质量在其中起着关键作用。


其次,其强大的“编辑”功能 ,包含Remix(重混)、Re-cut(再剪辑)、Storyboard(故事板)、Loop(循环)、Blend(混合)和Style presets(风格预设)。


在此之前,AI生成视频的一大痛点就是一次性生成后难以调整,这次Sora在一定程度上解决了这个问题。


本文详细介绍了三个亮眼的新功能。


Remix(重混) 视频中的一个元素可以被替换、移除或重新生成。例如,在生成“推开图书馆的大门”(图中)后,可以很容易地用法式风格替换大门(下图)。




Storyboard(故事板) 功能无疑是视频创作者的辅助工具,能够准确地指定每一帧的内容,控制每一个时间段的场景。


举例来说,让视频的前114帧产生“一艘宇宙飞船停靠在红色的背景下”。



接着,把114-324帧的场景变成了“一名宇航员站在太空飞船内部向外看”。



最后,在324-440帧中,画面聚焦于宇航员眼睛的特写,他的眼睛被针织面料做成的面罩包裹着。



Blend(混和) 该功能可以将两个视频混合在一起。Sora展示了将雪花落下和花瓣落下的视频混合在一起的过渡非常自然。OpenAI表示,这是其他AI视频从未见过的功能。



值得注意的是,虽然这一功能令人惊叹,但是Sora目前只在一些国家提供服务,英国、中国大陆等地暂时无法使用。


在收费方面,Sora直接向ChatGPT的Plus会员(每月20美元)和Pro会员(每月200美元)开放使用,Plus会员每月可以生成50个480P分辨率的视频,而Pro会员则有无限慢速生成。


Sora来了,可灵,即梦先别慌。


从Sora出现到发布的这10个月,国内Sora一直在追逐。Sora正式发布后,「定焦One」选择了国内外几个比较有代表性的AI生成视频工具,进行实测对比。


首先看看各大工具在生成秒数、收费价格等方面的情况。



在一次生成秒数上,Sora以20秒领先,其次是Runway,可达10秒,相比之下,国产产品一般为5-6秒。


需要注意的是,虽然白日梦最长可以达到6分钟,但不是一个生动的视频长度。它根据文字提醒先生成角色,然后再生成分镜,编辑图片,最后连接成视频,所以需要很长时间。


在收费方面,国产产品不用付费就能感受到,有的会限制使用频率。Sora必须付费才能使用,门槛不低。从20美元开始,Runway每月至少支付15美元。


看看每个家庭提供的具体功能和相应效果。


我们从两个方面来测试Sora最新发布的综合从业者的说法和功能。


1、基本功能:主要测试文生视频的能力,调查商品对文字指令的理解,运动时人物面部的清晰度,以及多人物的准确性。为覆盖上述三个难点,「定焦One」给出两个提示:


第一条:镜头拍摄。夕阳下,两个留着长发的女孩,一个穿着黄色裙子,一个穿着蓝色裙子,手里拿着胡萝卜,旁边有三只兔子。小白兔慢慢跑过去吃胡萝卜,这是电影级别的配色方案。


这篇文章主要测试了多主体数量的准确性。令人惊讶的是,Sora没有识别主体数量,只生成了两只兔子(提示词在测试过程中已经转化为英语)。然而,其他地方都相当准确。



Sora提示词


第二条:特写镜头拍摄,灯光,一个留着黑色卷发的中国女孩,穿着白色裙子,胸前捧着一束粉色的花,眼睛先低头看花,然后慢慢抬头微笑,这是电影级别的配色。


本文主要测试每个工具对人物面部的特写,以及对复杂指令的理解程度。


从生成效果来看,几个家庭都明白了人、物、动作,比如特写拍摄、少女、裙子、粉色花朵、低头看花、微笑等。但问题在于指令解读,比如可灵没有读懂“一个有黑卷发的中国女孩”,然后我们成功生成了“一个中国女孩,一根黑色长卷发”。



可灵提示词


每个家庭对“中国女孩”的理解都不一样。比如智谱清言生成的人物更像是外国女孩。相比之下,最好在FilmAction中选择新的中式风格,先用文字生成图片,再用图片生成视频,但使用起来也比较复杂。


「定焦One」在过去的六个月里,AI工具的进化速度也进行了比较。以即梦为例,与五个月前相比,人物的真实感有了显著提高。



即梦前制作的视频


总而言之,Sora在基本功能上的表现并不令人惊叹。


2、高级功能:主要测试本次Sora发布的新功能,也是本次Sora推广的重点。


许多从业人员提到,Remix(重混)功能实现起来比较复杂,所以我们直接测试了这个项目的难度,让Sora把之前生成视频中的兔子换成小狗,导致胡萝卜或者小狗起飞。


实际操作似乎远不如样本顺畅。但也有从业者表示,实际测量中存在一些偶然因素,最终效果与提示、场景、风格有很大关系。


结语


经过一番比较,不难看出,虽然Sora的发布令人震惊,但其实力还没有强到让国内从业者恐慌的程度。大家对Sora的总体评价是效果在预期之内。


与今年2月发布的演示相比,Sora在模型效果方面的真实感并没有明显变化。此外,结合众多网友的实测反馈,Sora在长期处理复杂动作时仍然存在一些困难,在模拟物理世界时可能会出错。


从业者对其发布的一系列新功能有不同的看法。


广浩科技CEO吴杰茜告诉我们「定焦One」,Storyboard(故事板)与Sora相似、Style presetsFilmAction已经实现了(风格预置)功能,Blend在国外AI生成视频工具Luma中首次亮相(混合)功能,其主要原理是头尾帧生成,Re-cut(再剪辑)功能底层依靠视频继写,目前我国工具也已经具备。


然而,AI行业的高级研究人员江树表示,Sora发布的一些功能是专属的,国产产品很少。虽然技术上并不新鲜,比如可灵的运动笔刷和头尾帧功能也可以实现视频连接和循环,但他认为Sora的实现方式相当出色。


以Remix为例。在中国,客户基本上是通过“更换关键帧”来改变视频中的主体,但Sora的Remix不是,因为在直播演示中,当猛犸象变成机器人时,沙子提升的细节可以与主体保持一致。


“也许Sora目前最大的优势就是处理细节的连接。”江树说,比如在直播演示中,机器人在沙漠中行走,中间的转换非常自然,从远处到特写。Sora的空间感也不错。摄像头在一个物体周围旋转360度,每个角度的细节都非常准确,说明Sora对3D场景有完整的了解。


另一个加分项是产品体验。江树说,Sora这次发布了一个完整的产品,从视频生成到成品端到端,不像之前ChatGPT发布的时候只有一个对话框。


樊家睿认为,除了基本的文学视频和图片视频之外,Sora还提供了一些功能来提高视频创作体验,这表明OpenAI确实更注重产品体验。Sora新功能的实现路径非常明确。对他们来说,技术实现的难度不在背后,主要是时间问题。


接着,AI生成的视频跑道又要卷起来了。


本文来自微信微信官方账号 “定焦”(ID:dingjiaoone),作者:定焦One团队,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com