谷歌发布了一个新模型，顺手确认Sora是最好的。

2024-12-18

谷歌继续努力更新基本模型，当OpenAI发布会仍在“商品雕刻”。半个月前，3D场景生成了基本模型，一周前，Gemini杀死了四面八方。今天是一个视频生成模型。

在北京时间12月17日，谷歌发布了Veo2的下一个版本，Veo2的文学视频模型。这次升级距离谷歌在今年5月的I/O会议上首次宣布Veo已经7个月了。

但是Veo只在十天前的12月3日才登上Axtrix，在此之前，客户只能使用VideoFX中的实验工具小规模试用这个视频生成软件。

这个版本主要带来三个核心升级。第一，真实感和保真度大大提高，它支持8s的长度。、清晰度为4K视频输出，大大提高了细节、真实性和伪影的减少。

其次，Veo可以高度准确地捕捉运动，因为它理解物理并遵循详细的指令。这是Sora前几天频繁翻车的地方。

第三，Veo 2还提供了更多的相机控制选项，您可以输入“镜头慢慢推动她的脸”等内容。、在追逐车辆的过程中，摄像机保持稳定。、用“极近的特写”来描述你想要的镜头方式。

当然，从目前谷歌提出的案例来看，Veo 2 对物理世界的认知确实达到了相当高的水平，尤其是人类甚至昆虫的动作表现。这些动作与世界互动具有很强的自然感。比如这种只用喙打猎的火烈鸟，不希望Sora前几天演示的火山爆发般夸张。

Veo在具体测试中也获得了SOTA的水平。谷歌选择了Meta发布的基准数据集MovieGenBench的其他顶级模型，包括Sora。上比拼了 1003 提示及其对应的视频。

从整体表现来看，Veo占优的情况接近或超过50%，不占劣势的情况可以达到70%左右。

比较有趣的事情，Sora 在谷歌测试的所有模型中，Turbo实际上表现最差，而表现最好的是可灵1.5。

Veo表现在指令遵循方面也达到了SOTA，其它模型也与整体表现排名没有太大区别。

在报告中，谷歌承认他的模型也有缺点。在复杂的场景或复杂的运动中，保持完全一致性仍然无法突破。在他们自己给出的案例中，仍然会有凭空出现的人物。在运动中，人们可能仍然会有不自然的“AI扭曲”。

在推特上，已经有网友测试过了。说明Veo2的画面控制和运动能力是值得的。提示词是“一个人坐在咖啡馆里喝咖啡的视频。过了一会儿，镜头切换到另一个角度，显示旁边桌子上的人在给他们寄信。”的情况下，Veo 2能很好地完成导演叙事的镜头切换，写作动作也很自然。

把同样的提示给Sora，首先很难实现镜头切换。对于提示词，两个人没有坐在一起，画面中只有一个人。而且写作动作有点像悬空画笔。

我们还测试了其他顶级模型。比如海螺，很难实现镜头切换，但是部分镜头切换的思路是通过变焦来完成的，空间和两个角色的关系也符合提示。

混元的影视气氛直接打满了，也完成了切镜。但是录像中两人的关系并没有那么明确。

可灵的确是最好的表现之一，切镜，两人的关系都把握住了。除美学和细节外，还不如Veo 另外，其他部分几乎是完美的。

在另一个测试中，使用相同的提示词

这是Veo 2的结果

那是Sora的结果

尽管Veo2的输出是有缺陷的，但是Sora这个缓慢而空洞的场景已经输出了太多。

对于其它模型来说，可灵输出情景感很好，但是弄臣的现实很刻意，从空间关系来看也不太可能，其中还有许多残影。

另一方面，海螺在提示词上仅次于Veo2，但并不符合“镜头从女王身后采集”的要求。但是细节的恢复比Veo2差很多。

看了这么久，谷歌评价里说的Sora最差不是没有道理的。

OpenAI的皇冠在2025年开始之前看起来有点不稳定。难怪就连微软CEO最近也在采访中大声说:“没有OpenAI，我们也可以开发出最一流的模型。”

看起来，在这场AI战争中，还有一些逆转的好戏。

但是谷歌这次还是没有改变画饼的问题。Veo2 现在还处于内测阶段，只能在VideoFX上排队申请。我希望它能在25年内提高所有的数量和新产品的发布速度。把画饼师傅定位给OpenAI。毕竟Sora花了9个月才发出来，堪比过去的谷歌。

本文来自微信微信官方账号“腾讯科技”，作者：郝博阳，编辑：郑可君，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

极越CEO夏一平发长文道歉，然后悄悄删除…

谈谈我眼中的设计师视角。 Apple Watch

赌上一切的李彦宏也许真的要赢？

「先享后付」隐藏陷阱，如何避免线下消费？

为什么HR在面试后不回复？

项目推荐

企业数字化人才孵化系统