OpenAI 正式发布 Sora，一篇文章看懂它的文生视频功能到底强在哪里？

2024-12-11

除视频形成外，还可以无限制地创作视频。

正如外界猜测的那样，在为期。 12 第三天，天直播，OpenAI 文生视频产品正式发布。 Sora。

北京时间 12 月 10 凌晨两点，Sam Altman 和几位 OpenAI 通过直播，内部人员展示了 Sora 功能及实际用例。继今年 2 每月发布视频样片后，Sora 在此之后，国内外人工智能公司纷纷推出文生视频产品，引发了全球人工智能热潮。而且作为这个赛道的开创者，今天 Sora 最后揭开了神秘的面纱。

总体来说，Sora 展示的一系列产品功能表明，它在视频生成的质量、功能的原创性、技术的复杂性等方面都超越了当前的文化视频产品。

基于文字、图片视频的基本功能，它增加了故事板(相当于通过分镜创作自己的经验)、整个产品的功能设计似乎让视频更贴近创作者的自我表达，帮助他们完成一个理想的画面故事，比如用文字调整原始视频、结合不同场景视频等功能(相当于直接给视频添加特效)。

当地时间 12 月 9 在日晚点，美国和其他国家的大多数客户都可以访问官网来感受。 Sora。它被包含在 ChatGPT Plus、ChatGPT Pro 在会员订阅中，不需要额外付费。其中，Plus 能生成最多 50 高级视频，视频分辨率最高 720p、时长为 5 秒，而 Pro 可以产生最多的 500 高级视频，分辨率高达 1080p、时长为 20 秒，还可以去除水印。

Sam Altman 介绍做 Sora 主要有三个原因：

第一，从工具的角度来看，OpenAI 热爱为创意人员制作工具，这对于企业文化非常重要；

第二，从用户互动的角度来看，人工智能系统不仅要通过文本互动，还要理解和生成帮助人类使用人工智能的视频。这类似于国内大型公司提到的，「每次模型扩展一次，用户渗透率就会上升。」

第三，从技术角度来看，这对。 OpenAI 的 AGI 路线图尤为重要，人工智能应该学习更多关于世界的规律，这就是所谓对物理规律的理解。「世界模型」。

不仅要用技术改变命运，还要用商品来促进人类的创造，这就是 Sora 正在做的事。

除了生成视频，还可以分镜、添加特效、无限创作。

Sora 首先，文生视频、图生视频功能是最基本的。

打开主页，客户可以查看和管理所有视频生成的内容，转换网格视图、列表视图、创建文件夹和收藏夹、查看笔记等。研究人员表示，这种主界面设计是为了更好地帮助用户创建故事。

主界面中间的底端， Sora 文生视频，图生视频功能。

例如，Sam Altman 首先给予文字输入，「长毛猛犸象在沙漠中行走，广角镜头拍摄」。然后，需要选择场景比例、分辨率、时间(5-20) 秒）、并且最终产生的视频数量(最多可以产生四个段落进行选择)等等，可以得到产生的视频。

最终，能看到产生的视频效果很真实，很有质感，而且基本上遵循输入指令。对 Sora 录像生成效果的出色表现，或许每个人都不会感到惊讶。

但此次，Sora 还发布了一系列独特先进的产品功能。在极客公园看来，这个功能基本上围绕视频的更准确的表达，即人们可以通过分镜、特效等方式，通过视频创作出自己想要的故事。

第一个是故事板（storyboard），它被研究人员称为一种「全新的创意工具」。

从产品设计的角度来看，相当于按照时间线把一个故事(视频)切成几张不同的故事卡(视频帧)。用户只需要设计和优化每张故事卡(视频帧)。Sora 它们将被自动地补充成一个流畅的故事(视频)——这与电影中的分镜和动画手稿非常相似。导演画分镜的时候，一部电影就拍出来了，一个漫画家写完稿子和一部动画就设计好了。

举例来说，研究人员构想的第一个分镜就是，「美丽的白鹤站在小溪里，尾巴是黄色的。」第二个分镜是，「鹤把头探进水里，抓出一条鱼。」。他的工作是建立这两张故事卡(视频帧)，并在两者之间设置大约五秒钟的间隔。这个间隔是正确的。 Sora 这一点非常重要，给它一个连接两组动作的发挥空间。

最终，他得到了一个完整的视频镜头，「美丽的白鹤站在小溪里，它有一条黄色的尾巴。接着鹤把头伸进水里，抓起一条鱼。」

更奇妙的是，在这个故事板上，创作要素不仅仅是故事卡，还有直接的照片和视频。换句话说，你可以把任何照片和视频拉到故事板上，用故事卡创作出来。

以视频为例，研究人员将上述白鹤的视频切下来，导入故事板进行切割，给视频的前后留下了继续创作的空隙，换句话说，可以有一个新的开头和结尾。

这样想像的是，故事板可以无限制地创作。换言之， Sora 产生的 20 秒视频，可以不断地创作、裁剪、创作…直到完全达到心中理想的画面。这个过程就像一个编辑，一个导演，通过不断地生成分镜设计和镜头素材的剪辑，慢慢地把它剪成自己心中的电影。

与现实世界不同，Sora 所提供的材料是无限的。与其它文生视频产品不同，Sora 视频可以修改加工。这样，它产生的视频一定会更符合顾客心中的想象力、创造力。

这好像正是 Sora 这个产品的核心思想：尽可能地让产生的视频符合顾客心中的想法。

这能更好地理解 Sora 其他功能，如可以通过文字直接修改视频，可以无缝结合两个不同的视频，可以改变视频的画风等。，相当于直接添加视频。「特效」那个。而且一般的文生视频产品，也许需要不断调整 prompt（提示词）、视频不断重新生成。

总的来说，Sora 除了在视频生成中意想不到的出色表现，它还带来了更多独特的视频创作产品功能，相当于给视频加分镜、剪辑和特效。这意味着每个人都有机会创造自己真正想要的表达方式，离当导演更近。

「假如你带着期望进入 Sora，认为你只需点击一个按钮就能拍出一部电影，那么我认为你的期望是错误的。」OpenAI 研究人员说。

他指出，Sora 它是一种工具，允许每个人同时在多个地方，尝试多个想法，尝试以前完全不可能的事，「事实上，我们认为这是创作者非常特别的延伸。」

服务大众还没有独立收费，还是靠底层模型能力？

作为文生视频赛道的开创者，Sora 推出时间是最晚的。对于这一点，OpenAI 研究小组表示，为了正确 Sora 要进行广泛的部署，就必须找到让模型更快、更便宜的方法。所以，研究小组做了很多工作。

在直播间，OpenAI 宣布推出 Sora turbo，这是原始 Sora 新高端模型加速版。它有今年早些时候 OpenAI 在「全球模拟技术」除了从文本中生成视频、动画图像和混合视频之外，报告中提到的所有功能都被添加到这个功能中。这就是 Sora 技术基础是产品功能背后。

与文字相比，视频的推理成本似乎更高，但是这一次， OpenAI 没有单独的目标 Sora 收费。20 美金/月的 ChatGPT Plus 会员、以及 200 美金/月的 ChatGPT Pro 所有成员，都可以使用 Sora。

前一种利益最多 50 一个高级视频，分辨率达到 720p，时长为 5 秒，后者的利益最多包括 500 高级视频，无限普通视频，分辨率高达 1080p、持续时间为 20 秒，而且下载没有水印。

Sora 对 OpenAI 意义不止于此。团队发现，在大规模的训练中，视频模型会展现出许多有趣的新能力，促进视频模型。 Sora 在现实世界中，可以模拟人、动物和环境的某些方面。「结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有希望的道路。」

也许正是因为这个原因，让步 Sora 尽早被大家利用，用数据更好地训练世界模型，对于世界模型， OpenAI 最后的 AGI 理想如此重要。

同时，在迭代技术的道路上，也促进了人类的创造。

「这个版本的 Sora 犯错并不完美，但它已经到了我们认为它会对增强人类创造力非常有用的地步。我们迫不及待地想看看这个世界将如何使用它。」缔造它的 OpenAI 如此说道。

本文来自微信微信官方账号“极客公园”（ID：geekpark），作者：黎诗韵，编辑：靖宇，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

培养“责任型领导”，不仅仅是一个时尚词汇

一位年轻人来到安研路201号。

更快、更超清晰、可编辑，新版本的Sora来了。

新能源爆款车“黄埔军校”是谁？

小米SUV隐藏门把手被吐槽，雷军评论区沦陷

项目推荐

梯影传媒

AI云印侠

宾果智能