Sora拍摄的真实体验：大力难出奇迹，全靠人工逐帧后期。

2024-05-05

今年年初，OpenAI发布了自己的第一个Sora文字视频模型，可以用文字指令生成1分钟的超清视频，随后引起了广泛关注和多方振动。马斯克觉得“人类赌博认输”，很多人甚至大喊“导演后期会失业”。毕竟这种被称为“电影制作神器”的模式的出现，意味着每一个使用它的普通人都可能实现“导演梦”。许多人已经想象过，创意文案和脚本是由ChatGPT产生的，然后Sora从文本中产生华丽的几分钟广告大片。

Sora一开始并没有对外开放试用，直到最近几周，Shyy来自加拿大。作为为数不多的获得Sora权限的制作团队之一，Kids团队试图简单地用SORA代替相机，制作一部1分21秒的短片，也为大家揭开了Sora的神秘面纱。

这部《Air Head》短片由3人制作，耗时近2周。说到制作过程，他们不仅感叹SORA的强大功能，还谈到了制作背后的很多内幕:真正的Sora每秒至少需要300倍的素材，OpenAI的科学家似乎完全没有意识到视频有拍摄技巧的需求。AI从文本上一键生成我们理想的大片仍然是一个美好的想象。

Shy Kids的深刻体验也证明了一个关键事实。当Sora发布时，OpenAI似乎暗示这些样本完全由SORA自称生成和制作，但实际上，无论是分镜、编辑、配色、镜头还是特效，大家看到的样本“买家秀”背后都包含了大量的人工专业制作，目前还不能用AI来代替。

AI仍然无法理解专业团队的分镜。

Shy 作为加拿大的专业影视团队，Kids以其不拘一格、创新的媒体制作方法而闻名。他被称为“朋克摇滚皮克斯”，在艺术方面，他们的作品获得了艾美奖提名，并入选奥斯卡提名，但在商业化方面，他们为迪士尼、奈飞、HBO等平台制作了许多作品，在行业内具有一定的知名度。

即使是这样的专业团队，在使用Sora制作视频的时候，也会发现一个大问题——传统的先写剧本，再开始拍摄制作的过程在Sora上是行不通的。

这部电影的导演在介绍电影制作时提到，他们使用的Sora仍然是传统的输入本文生成视频模式，并不支持许多大型模式已经使用的多模式输入。

这直接导致了一个尴尬的情节，因为Sora不能给Sora看分镜图，Sora根本无法生成一个满足摄影团队需求的连贯视频，团队只能单独生成视频来拼接每一个分镜。

然而，这里出现了第二个问题。AI对事物的理解不如人类。即使前一个镜头的材料完美满足了导演的需求，同样的元素在输入同样的需求之后，下一个片段仍然无法再现。

导演举了一个例子：假设你要求Sora在厨房里拍一张桌子上有香蕉的长镜头。在这种情况下，它会根据对“香蕉”概念的理解来制作视频。通过训练数据，它“学习”了香蕉的各种要素：例如“黄色”、“弯折”、有深色尾端等等。但是它没有实际记录的香蕉图像，也没有类似于“香蕉图片库”的数据库。它只用关键词生成它认为的香蕉，这也导致每次生成的香蕉都无法保证固定，对长视频拍摄影响很大。

为保持最简单的一致性，团队不得不切割拼接各种Sora生成片段。

团队展示电影制作过程

以这个气球人骑自行车的片段为例，因为每次生成主角骑自行车的画面都无法保持统一，看似流畅的画面其实是由三个画面拼接而成的。

AI拍摄，消耗更多人力。

由于AI不能平稳地生成一个固定的角色或道具，《Air Head》在制作过程中遇到了许多过去影视中不会遇到的问题。

这部短片的主角是一个黄色的汽球作为头部人物，因为AI不能稳定地产生这样的角色。在这部1分21秒的作品中，几乎每一秒都需要大量的后期调整来保证角色的统一。

针对这一情况，Shy kids决定大力创造奇迹，通过大量生成相关片段，选择相对统一有用的部分来组成一部电影，这也让团队原本想象的电影变成了类似纪录片的拼接和缝合。

负责后期团队的帕德里克说:“短片里有剧本，但团队需要随机应变。”“我只是得到了很多镜头，并试图以有趣的方式将其编辑成旁白。”

它透露，为了制作这部电影，每秒制作一部电影大约需要300倍的材料。

渲染这些原始材料已经成为电影最耗时的部分之一。团队表示，每次获得的材料长度为3-20秒，但渲染时间需要10-20分钟。

而且即便是渲染出最后选用的材料，仍然无法逃脱大量的后期人工加工。

Shy 根据Kids提供的信息，即使Sora每次都要求生成一个黄色气球，Sora有时也会生成一个红色气球，因为没有更合适的材料，后期团队只能用PS和AE把它涂成黄色。

成片(上)和SORA生成视频原片(下)

而且有时候人脸会出现在汽球中，这就导致了大量的后期制作，包括分级、防老化、上采样、去除不必要的元素。

人脸上出现了SORA产生的气球人

OpenAI：拍摄手法叫什么？

除了需要大量的后期，负责这部电影后期制作AI电影最大的障碍帕德里克还提到了AI目前无法理解拍摄手法的缺点。

帕特里克说:对于很多文化视频工具来说，有用的信息来源是相机元数据。例如，如果需要照片训练(大模型)，相机元数据将为模型训练提供镜头尺寸、光圈值和许多其他重要信息。

然而，对于电影镜头来说，“跟踪”、“平移”、“倾斜”或“推动”的想法不是相机信息中的冷数据，而是一个更抽象的概念。虽然目标永恒(道具/人物需要在拍摄过程中持续存在)的制作在影视行业尤为重要，但拍摄手法也同样重要，但目前的Sora不仅难以实现，甚至无法理解这个概念。

Shy Kids说：“对于如何在电影场景中描述一个镜头，九个不同的人会有九种不同的想法。(OpenAI) 在让艺术家使用这个工具之前，研究人员并没有像电影制作人那样真正思考。尽管Shy Kids团队知道他们感受到的Sora版本比较早，但他们仍然对混乱的摄像头座位和视角感到震惊。在团队眼里，他们已经试图在文本中强调固定座位或拍摄技术的概念，但他们不确定Sora是否无法理解他们的输入方法，或者SORA是否完全没有相关的概念。

现在SORA几乎只有一个视角可以直接拍照。

在把这个问题反馈给OpenAI之后，双方都感到惊讶。与Shy相比， Kids团队，OpenAI的研究人员对文生视频有这样的需求感到震惊。这个回复让Shy很震惊。在SORA的发展中，Kids团队集体眼瞳地震，在他们眼里，司空见惯的认知根本没有被提及。

在Sora紧急更新相关代码之后，Shy Kids对保持相同位置的功能的评价也“足够了”。帕德里克说，SORA目前可以生成10个视频，6个视频可以获得相同的位置视角。

但他补充说，值得注意的是，这并非一个独特的问题，大多数主要的文生视频公司都面临着类似的问题。Runway 虽然Runway的质量和渲染剪辑的长度不如Sora，但AI可能是提供描述摄像机运动UI的最先进的。

对整个拍摄体验，Shy Kids团队表示，这是一次新颖而有价值的探索。他们认为将Sora融入AE制作特效镜头是一个非常好的应用尝试，而不是直接通过Sora制作电影。

与此同时，他们还表示，目前的Sora仍然非常早期，不适合公开发布。对于专业团队来说，满足导演的要求可能还有很长的路要走。但是，对于普通人来说，如果他们不在乎各种奇怪的BUG图片，未来需要大量的后期修复，Sora可能会让普通人充分使用。

本文来自微信微信官方账号“观网财经”（ID:tiequanhe），作家：陈济深，编辑：张广凯，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

新旧置换为汽车市场注入强心剂，谁最受益？

日币在1990年创下新低，大量企业倒闭，日本央行在做什么？

特别具有感染力，我国有7500万人患有这种病毒，但是很少有人接种疫苗。

为什么GP人都去县里筹集资金？

雷军要搞“模块化汽车”，口头招揽比亚迪王传福？