OpenAI 正式发布 Sora,一篇文章看懂它的文生视频功能到底强在哪里?
除视频形成外,还可以无限制地创作视频。
正如外界猜测的那样,在为期。 12 第三天,天直播,OpenAI 文生视频产品正式发布。 Sora。
北京时间 12 月 10 凌晨两点,Sam Altman 和几位 OpenAI 通过直播,内部人员展示了 Sora 功能及实际用例。继今年 2 每月发布视频样片后,Sora 在此之后,国内外人工智能公司纷纷推出文生视频产品,引发了全球人工智能热潮。而且作为这个赛道的开创者,今天 Sora 最后揭开了神秘的面纱。
总体来说,Sora 展示的一系列产品功能表明,它在视频生成的质量、功能的原创性、技术的复杂性等方面都超越了当前的文化视频产品。
基于文字、图片视频的基本功能,它增加了故事板(相当于通过分镜创作自己的经验)、整个产品的功能设计似乎让视频更贴近创作者的自我表达,帮助他们完成一个理想的画面故事,比如用文字调整原始视频、结合不同场景视频等功能(相当于直接给视频添加特效)。
当地时间 12 月 9 在日晚点,美国和其他国家的大多数客户都可以访问官网来感受。 Sora。它被包含在 ChatGPT Plus、ChatGPT Pro 在会员订阅中,不需要额外付费。其中,Plus 能生成最多 50 高级视频,视频分辨率最高 720p、时长为 5 秒,而 Pro 可以产生最多的 500 高级视频,分辨率高达 1080p、时长为 20 秒,还可以去除水印。
Sam Altman 介绍做 Sora 主要有三个原因:
第一,从工具的角度来看,OpenAI 热爱为创意人员制作工具,这对于企业文化非常重要;
第二,从用户互动的角度来看,人工智能系统不仅要通过文本互动,还要理解和生成帮助人类使用人工智能的视频。这类似于国内大型公司提到的,「每次模型扩展一次,用户渗透率就会上升。」
第三,从技术角度来看,这对。 OpenAI 的 AGI 路线图尤为重要,人工智能应该学习更多关于世界的规律,这就是所谓对物理规律的理解。「世界模型」。
不仅要用技术改变命运,还要用商品来促进人类的创造,这就是 Sora 正在做的事。
除了生成视频,还可以分镜、添加特效、无限创作。
Sora 首先,文生视频、图生视频功能是最基本的。
打开主页,客户可以查看和管理所有视频生成的内容,转换网格视图、列表视图、创建文件夹和收藏夹、查看笔记等。研究人员表示,这种主界面设计是为了更好地帮助用户创建故事。
主界面中间的底端, Sora 文生视频,图生视频功能。
例如,Sam Altman 首先给予文字输入,「长毛猛犸象在沙漠中行走,广角镜头拍摄」。然后,需要选择场景比例、分辨率、时间(5-20) 秒)、并且最终产生的视频数量(最多可以产生四个段落进行选择)等等,可以得到产生的视频。
最终,能看到产生的视频效果很真实,很有质感,而且基本上遵循输入指令。对 Sora 录像生成效果的出色表现,或许每个人都不会感到惊讶。

但此次,Sora 还发布了一系列独特先进的产品功能。在极客公园看来,这个功能基本上围绕视频的更准确的表达,即人们可以通过分镜、特效等方式,通过视频创作出自己想要的故事。
第一个是故事板(storyboard),它被研究人员称为一种「全新的创意工具」。
从产品设计的角度来看,相当于按照时间线把一个故事(视频)切成几张不同的故事卡(视频帧)。用户只需要设计和优化每张故事卡(视频帧)。Sora 它们将被自动地补充成一个流畅的故事(视频)——这与电影中的分镜和动画手稿非常相似。导演画分镜的时候,一部电影就拍出来了,一个漫画家写完稿子和一部动画就设计好了。
举例来说,研究人员构想的第一个分镜就是,「美丽的白鹤站在小溪里,尾巴是黄色的。」第二个分镜是,「鹤把头探进水里,抓出一条鱼。」。他的工作是建立这两张故事卡(视频帧),并在两者之间设置大约五秒钟的间隔。这个间隔是正确的。 Sora 这一点非常重要,给它一个连接两组动作的发挥空间。
最终,他得到了一个完整的视频镜头,「美丽的白鹤站在小溪里,它有一条黄色的尾巴。接着鹤把头伸进水里,抓起一条鱼。」


更奇妙的是,在这个故事板上,创作要素不仅仅是故事卡,还有直接的照片和视频。换句话说,你可以把任何照片和视频拉到故事板上,用故事卡创作出来。
以视频为例,研究人员将上述白鹤的视频切下来,导入故事板进行切割,给视频的前后留下了继续创作的空隙,换句话说,可以有一个新的开头和结尾。
这样想像的是,故事板可以无限制地创作。换言之, Sora 产生的 20 秒视频,可以不断地创作、裁剪、创作…直到完全达到心中理想的画面。这个过程就像一个编辑,一个导演,通过不断地生成分镜设计和镜头素材的剪辑,慢慢地把它剪成自己心中的电影。
与现实世界不同,Sora 所提供的材料是无限的。与其它文生视频产品不同,Sora 视频可以修改加工。这样,它产生的视频一定会更符合顾客心中的想象力、创造力。
这好像正是 Sora 这个产品的核心思想:尽可能地让产生的视频符合顾客心中的想法。
这能更好地理解 Sora 其他功能,如可以通过文字直接修改视频,可以无缝结合两个不同的视频,可以改变视频的画风等。,相当于直接添加视频。「特效」那个。而且一般的文生视频产品,也许需要不断调整 prompt(提示词)、视频不断重新生成。


总的来说,Sora 除了在视频生成中意想不到的出色表现,它还带来了更多独特的视频创作产品功能,相当于给视频加分镜、剪辑和特效。这意味着每个人都有机会创造自己真正想要的表达方式,离当导演更近。
「假如你带着期望进入 Sora,认为你只需点击一个按钮就能拍出一部电影,那么我认为你的期望是错误的。」OpenAI 研究人员说。
他指出,Sora 它是一种工具,允许每个人同时在多个地方,尝试多个想法,尝试以前完全不可能的事,「事实上,我们认为这是创作者非常特别的延伸。」
服务大众还没有独立收费,还是靠底层模型能力?
作为文生视频赛道的开创者,Sora 推出时间是最晚的。对于这一点,OpenAI 研究小组表示,为了正确 Sora 要进行广泛的部署,就必须找到让模型更快、更便宜的方法。所以,研究小组做了很多工作。
在直播间,OpenAI 宣布推出 Sora turbo,这是原始 Sora 新高端模型加速版。它有今年早些时候 OpenAI 在「全球模拟技术」除了从文本中生成视频、动画图像和混合视频之外,报告中提到的所有功能都被添加到这个功能中。这就是 Sora 技术基础是产品功能背后。
与文字相比,视频的推理成本似乎更高,但是这一次, OpenAI 没有单独的目标 Sora 收费。20 美金/月的 ChatGPT Plus 会员、以及 200 美金/月的 ChatGPT Pro 所有成员,都可以使用 Sora。
前一种利益最多 50 一个高级视频,分辨率达到 720p,时长为 5 秒,后者的利益最多包括 500 高级视频,无限普通视频,分辨率高达 1080p、持续时间为 20 秒,而且下载没有水印。

Sora 对 OpenAI 意义不止于此。团队发现,在大规模的训练中,视频模型会展现出许多有趣的新能力,促进视频模型。 Sora 在现实世界中,可以模拟人、动物和环境的某些方面。「结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有希望的道路。」
也许正是因为这个原因,让步 Sora 尽早被大家利用,用数据更好地训练世界模型,对于世界模型, OpenAI 最后的 AGI 理想如此重要。
同时,在迭代技术的道路上,也促进了人类的创造。
「这个版本的 Sora 犯错并不完美,但它已经到了我们认为它会对增强人类创造力非常有用的地步。我们迫不及待地想看看这个世界将如何使用它。」缔造它的 OpenAI 如此说道。
本文来自微信微信官方账号“极客公园”(ID:geekpark),作者:黎诗韵,编辑:靖宇,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




