Sora拍摄的真实体验:大力难出奇迹,全靠人工逐帧后期。

2024-05-05

今年年初,OpenAI发布了自己的第一个Sora文字视频模型,可以用文字指令生成1分钟的超清视频,随后引起了广泛关注和多方振动。马斯克觉得“人类赌博认输”,很多人甚至大喊“导演后期会失业”。毕竟这种被称为“电影制作神器”的模式的出现,意味着每一个使用它的普通人都可能实现“导演梦”。许多人已经想象过,创意文案和脚本是由ChatGPT产生的,然后Sora从文本中产生华丽的几分钟广告大片。


Sora一开始并没有对外开放试用,直到最近几周,Shyy来自加拿大。 作为为数不多的获得Sora权限的制作团队之一,Kids团队试图简单地用SORA代替相机,制作一部1分21秒的短片,也为大家揭开了Sora的神秘面纱。


这部《Air Head》短片由3人制作,耗时近2周。说到制作过程,他们不仅感叹SORA的强大功能,还谈到了制作背后的很多内幕:真正的Sora每秒至少需要300倍的素材,OpenAI的科学家似乎完全没有意识到视频有拍摄技巧的需求。AI从文本上一键生成我们理想的大片仍然是一个美好的想象。


Shy Kids的深刻体验也证明了一个关键事实。当Sora发布时,OpenAI似乎暗示这些样本完全由SORA自称生成和制作,但实际上,无论是分镜、编辑、配色、镜头还是特效,大家看到的样本“买家秀”背后都包含了大量的人工专业制作,目前还不能用AI来代替。


AI仍然无法理解专业团队的分镜。


Shy 作为加拿大的专业影视团队,Kids以其不拘一格、创新的媒体制作方法而闻名。他被称为“朋克摇滚皮克斯”,在艺术方面,他们的作品获得了艾美奖提名,并入选奥斯卡提名,但在商业化方面,他们为迪士尼、奈飞、HBO等平台制作了许多作品,在行业内具有一定的知名度。


即使是这样的专业团队,在使用Sora制作视频的时候,也会发现一个大问题——传统的先写剧本,再开始拍摄制作的过程在Sora上是行不通的。


这部电影的导演在介绍电影制作时提到,他们使用的Sora仍然是传统的输入本文生成视频模式,并不支持许多大型模式已经使用的多模式输入。


这直接导致了一个尴尬的情节,因为Sora不能给Sora看分镜图,Sora根本无法生成一个满足摄影团队需求的连贯视频,团队只能单独生成视频来拼接每一个分镜。


然而,这里出现了第二个问题。AI对事物的理解不如人类。即使前一个镜头的材料完美满足了导演的需求,同样的元素在输入同样的需求之后,下一个片段仍然无法再现。


导演举了一个例子:假设你要求Sora在厨房里拍一张桌子上有香蕉的长镜头。在这种情况下,它会根据对“香蕉”概念的理解来制作视频。通过训练数据,它“学习”了香蕉的各种要素:例如“黄色”、“弯折”、有深色尾端等等。但是它没有实际记录的香蕉图像,也没有类似于“香蕉图片库”的数据库。它只用关键词生成它认为的香蕉,这也导致每次生成的香蕉都无法保证固定,对长视频拍摄影响很大。


为保持最简单的一致性,团队不得不切割拼接各种Sora生成片段。


团队展示电影制作过程


以这个气球人骑自行车的片段为例,因为每次生成主角骑自行车的画面都无法保持统一,看似流畅的画面其实是由三个画面拼接而成的。


AI拍摄,消耗更多人力。


由于AI不能平稳地生成一个固定的角色或道具,《Air Head》在制作过程中遇到了许多过去影视中不会遇到的问题。


这部短片的主角是一个黄色的汽球作为头部人物,因为AI不能稳定地产生这样的角色。在这部1分21秒的作品中,几乎每一秒都需要大量的后期调整来保证角色的统一。


针对这一情况,Shy kids决定大力创造奇迹,通过大量生成相关片段,选择相对统一有用的部分来组成一部电影,这也让团队原本想象的电影变成了类似纪录片的拼接和缝合。


负责后期团队的帕德里克说:“短片里有剧本,但团队需要随机应变。”“我只是得到了很多镜头,并试图以有趣的方式将其编辑成旁白。”


它透露,为了制作这部电影,每秒制作一部电影大约需要300倍的材料。


渲染这些原始材料已经成为电影最耗时的部分之一。团队表示,每次获得的材料长度为3-20秒,但渲染时间需要10-20分钟。


而且即便是渲染出最后选用的材料,仍然无法逃脱大量的后期人工加工。


Shy 根据Kids提供的信息,即使Sora每次都要求生成一个黄色气球,Sora有时也会生成一个红色气球,因为没有更合适的材料,后期团队只能用PS和AE把它涂成黄色。



成片(上)和SORA生成视频原片(下)


而且有时候人脸会出现在汽球中,这就导致了大量的后期制作,包括分级、防老化、上采样、去除不必要的元素。


人脸上出现了SORA产生的气球人


OpenAI:拍摄手法叫什么?


除了需要大量的后期,负责这部电影后期制作AI电影最大的障碍帕德里克还提到了AI目前无法理解拍摄手法的缺点。


帕特里克说:对于很多文化视频工具来说,有用的信息来源是相机元数据。例如,如果需要照片训练(大模型),相机元数据将为模型训练提供镜头尺寸、光圈值和许多其他重要信息。


然而,对于电影镜头来说,“跟踪”、“平移”、“倾斜”或“推动”的想法不是相机信息中的冷数据,而是一个更抽象的概念。虽然目标永恒(道具/人物需要在拍摄过程中持续存在)的制作在影视行业尤为重要,但拍摄手法也同样重要,但目前的Sora不仅难以实现,甚至无法理解这个概念。


Shy Kids说:“对于如何在电影场景中描述一个镜头,九个不同的人会有九种不同的想法。(OpenAI) 在让艺术家使用这个工具之前,研究人员并没有像电影制作人那样真正思考。尽管Shy Kids团队知道他们感受到的Sora版本比较早,但他们仍然对混乱的摄像头座位和视角感到震惊。在团队眼里,他们已经试图在文本中强调固定座位或拍摄技术的概念,但他们不确定Sora是否无法理解他们的输入方法,或者SORA是否完全没有相关的概念。


现在SORA几乎只有一个视角可以直接拍照。


在把这个问题反馈给OpenAI之后,双方都感到惊讶。与Shy相比, Kids团队,OpenAI的研究人员对文生视频有这样的需求感到震惊。这个回复让Shy很震惊。 在SORA的发展中,Kids团队集体眼瞳地震,在他们眼里,司空见惯的认知根本没有被提及。


在Sora紧急更新相关代码之后,Shy Kids对保持相同位置的功能的评价也“足够了”。帕德里克说,SORA目前可以生成10个视频,6个视频可以获得相同的位置视角。


但他补充说,值得注意的是,这并非一个独特的问题,大多数主要的文生视频公司都面临着类似的问题。Runway 虽然Runway的质量和渲染剪辑的长度不如Sora,但AI可能是提供描述摄像机运动UI的最先进的。


对整个拍摄体验,Shy Kids团队表示,这是一次新颖而有价值的探索。他们认为将Sora融入AE制作特效镜头是一个非常好的应用尝试,而不是直接通过Sora制作电影。


与此同时,他们还表示,目前的Sora仍然非常早期,不适合公开发布。对于专业团队来说,满足导演的要求可能还有很长的路要走。但是,对于普通人来说,如果他们不在乎各种奇怪的BUG图片,未来需要大量的后期修复,Sora可能会让普通人充分使用。


本文来自微信微信官方账号“观网财经”(ID:tiequanhe),作家:陈济深,编辑:张广凯,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com