Sora来了，即梦可灵松了一口气。

2024-12-12

Sora在全网苦等了10个月，终于出现了。

OpenAI直播第三弹于北京时间12月10日凌晨，宣布其视频生成模式Sora正式向公众推出。

自今年2月首次公布以来，Sora只为一些艺术家、著名演员和导演提供试用服务，但还没有上线，引起了公众的食欲。一经发布，立即激发了全球网友的热情，爆炸了服务器。

「定焦One」注意到，与上一个版本相比，这次的Sora Turbo支持生成1080p分辨率和最长20秒的视频，在持续时间上取得了显著突破。更重要的是，它提供“编辑”服务。除了简单的文化视频、图片视频和视频生成视频外，用户还可以通过指令实现视频重混、再编辑、循环、混合等功能，更像是视频编辑的强化版本。

在Sora正式发布之后，一个问题也被摆上了舞台：国内的Sora们，准备好迎接挑战了吗？

「定焦One」第一时间进行了实测对比，对于结果，远没有想象中那么糟糕。

新版本的Sora，不仅仅是文生视频

结合多位业内人士的观点，Sora的变化主要集中在两个方面。

一是时间，Sora Turbo支持一次生成最长20秒的文字、照片或视频。 (之前发布的演示视频最长时间为60秒，但不是公开使用的版本)，有宽屏、坚屏、方屏的比例可供选择。然而，国内大多数AI视频生成软件一次只支持5-10秒。

能够产生的视频时间越长，对其内容的一致性、避免重复、衔接过渡的要求就越高，模型的优化和培训数据的质量在其中起着关键作用。

其次，其强大的“编辑”功能 ，包含Remix(重混)、Re-cut(再剪辑)、Storyboard（故事板）、Loop（循环）、Blend(混合)和Style presets(风格预设)。

在此之前，AI生成视频的一大痛点就是一次性生成后难以调整，这次Sora在一定程度上解决了这个问题。

本文详细介绍了三个亮眼的新功能。

Remix（重混） 视频中的一个元素可以被替换、移除或重新生成。例如，在生成“推开图书馆的大门”(图中)后，可以很容易地用法式风格替换大门(下图)。

Storyboard（故事板） 功能无疑是视频创作者的辅助工具，能够准确地指定每一帧的内容，控制每一个时间段的场景。

举例来说，让视频的前114帧产生“一艘宇宙飞船停靠在红色的背景下”。

接着，把114-324帧的场景变成了“一名宇航员站在太空飞船内部向外看”。

最后，在324-440帧中，画面聚焦于宇航员眼睛的特写，他的眼睛被针织面料做成的面罩包裹着。

Blend（混和） 该功能可以将两个视频混合在一起。Sora展示了将雪花落下和花瓣落下的视频混合在一起的过渡非常自然。OpenAI表示，这是其他AI视频从未见过的功能。

值得注意的是，虽然这一功能令人惊叹，但是Sora目前只在一些国家提供服务，英国、中国大陆等地暂时无法使用。

在收费方面，Sora直接向ChatGPT的Plus会员(每月20美元)和Pro会员(每月200美元)开放使用，Plus会员每月可以生成50个480P分辨率的视频，而Pro会员则有无限慢速生成。

Sora来了，可灵，即梦先别慌。

从Sora出现到发布的这10个月，国内Sora一直在追逐。Sora正式发布后，「定焦One」选择了国内外几个比较有代表性的AI生成视频工具，进行实测对比。

首先看看各大工具在生成秒数、收费价格等方面的情况。

在一次生成秒数上，Sora以20秒领先，其次是Runway，可达10秒，相比之下，国产产品一般为5-6秒。

需要注意的是，虽然白日梦最长可以达到6分钟，但不是一个生动的视频长度。它根据文字提醒先生成角色，然后再生成分镜，编辑图片，最后连接成视频，所以需要很长时间。

在收费方面，国产产品不用付费就能感受到，有的会限制使用频率。Sora必须付费才能使用，门槛不低。从20美元开始，Runway每月至少支付15美元。

看看每个家庭提供的具体功能和相应效果。

我们从两个方面来测试Sora最新发布的综合从业者的说法和功能。

1、基本功能：主要测试文生视频的能力，调查商品对文字指令的理解，运动时人物面部的清晰度，以及多人物的准确性。为覆盖上述三个难点，「定焦One」给出两个提示：

第一条:镜头拍摄。夕阳下，两个留着长发的女孩，一个穿着黄色裙子，一个穿着蓝色裙子，手里拿着胡萝卜，旁边有三只兔子。小白兔慢慢跑过去吃胡萝卜，这是电影级别的配色方案。

这篇文章主要测试了多主体数量的准确性。令人惊讶的是，Sora没有识别主体数量，只生成了两只兔子(提示词在测试过程中已经转化为英语)。然而，其他地方都相当准确。

Sora提示词

第二条:特写镜头拍摄，灯光，一个留着黑色卷发的中国女孩，穿着白色裙子，胸前捧着一束粉色的花，眼睛先低头看花，然后慢慢抬头微笑，这是电影级别的配色。

本文主要测试每个工具对人物面部的特写，以及对复杂指令的理解程度。

从生成效果来看，几个家庭都明白了人、物、动作，比如特写拍摄、少女、裙子、粉色花朵、低头看花、微笑等。但问题在于指令解读，比如可灵没有读懂“一个有黑卷发的中国女孩”，然后我们成功生成了“一个中国女孩，一根黑色长卷发”。

可灵提示词

每个家庭对“中国女孩”的理解都不一样。比如智谱清言生成的人物更像是外国女孩。相比之下，最好在FilmAction中选择新的中式风格，先用文字生成图片，再用图片生成视频，但使用起来也比较复杂。

「定焦One」在过去的六个月里，AI工具的进化速度也进行了比较。以即梦为例，与五个月前相比，人物的真实感有了显著提高。

即梦前制作的视频

总而言之，Sora在基本功能上的表现并不令人惊叹。

2、高级功能：主要测试本次Sora发布的新功能，也是本次Sora推广的重点。

许多从业人员提到，Remix(重混)功能实现起来比较复杂，所以我们直接测试了这个项目的难度，让Sora把之前生成视频中的兔子换成小狗，导致胡萝卜或者小狗起飞。

实际操作似乎远不如样本顺畅。但也有从业者表示，实际测量中存在一些偶然因素，最终效果与提示、场景、风格有很大关系。

结语

经过一番比较，不难看出，虽然Sora的发布令人震惊，但其实力还没有强到让国内从业者恐慌的程度。大家对Sora的总体评价是效果在预期之内。

与今年2月发布的演示相比，Sora在模型效果方面的真实感并没有明显变化。此外，结合众多网友的实测反馈，Sora在长期处理复杂动作时仍然存在一些困难，在模拟物理世界时可能会出错。

从业者对其发布的一系列新功能有不同的看法。

广浩科技CEO吴杰茜告诉我们「定焦One」，Storyboard(故事板)与Sora相似、Style presetsFilmAction已经实现了(风格预置)功能，Blend在国外AI生成视频工具Luma中首次亮相(混合)功能，其主要原理是头尾帧生成，Re-cut(再剪辑)功能底层依靠视频继写，目前我国工具也已经具备。

然而，AI行业的高级研究人员江树表示，Sora发布的一些功能是专属的，国产产品很少。虽然技术上并不新鲜，比如可灵的运动笔刷和头尾帧功能也可以实现视频连接和循环，但他认为Sora的实现方式相当出色。

以Remix为例。在中国，客户基本上是通过“更换关键帧”来改变视频中的主体，但Sora的Remix不是，因为在直播演示中，当猛犸象变成机器人时，沙子提升的细节可以与主体保持一致。

“也许Sora目前最大的优势就是处理细节的连接。”江树说，比如在直播演示中，机器人在沙漠中行走，中间的转换非常自然，从远处到特写。Sora的空间感也不错。摄像头在一个物体周围旋转360度，每个角度的细节都非常准确，说明Sora对3D场景有完整的了解。

另一个加分项是产品体验。江树说，Sora这次发布了一个完整的产品，从视频生成到成品端到端，不像之前ChatGPT发布的时候只有一个对话框。

樊家睿认为，除了基本的文学视频和图片视频之外，Sora还提供了一些功能来提高视频创作体验，这表明OpenAI确实更注重产品体验。Sora新功能的实现路径非常明确。对他们来说，技术实现的难度不在背后，主要是时间问题。

接着，AI生成的视频跑道又要卷起来了。

本文来自微信微信官方账号 “定焦”（ID：dingjiaoone），作者：定焦One团队，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

[晨读]高烧40℃差点失明！只是因为这种动物...

去一个城市吃好吃的！来到德阳，值得！

国补价格太香了八大类家电销售超过2000亿亿造福近3000万人

"是谁突然把一笔钱转到我的账户上？!"

第六届浙江国际智慧交通博览会第六届丽水酷炫交通新技术亮相

项目推荐

康小虎 · 健康小屋

毛加健康

康老板 · 氧疗堂