谷歌版Sora升级4K超清！一句话控制镜头运动，跑分叫嚣可灵海螺

2024-12-18

OpenAI 现场划水的一天，谷歌版 Sora 迎来了它的 2.0 ——

Veo 2，更高质量的视频是根据文字或图像生成的。

根据官方的介绍，这次的升级主要有三个方面。

比如可以达到分辨率 4K。

能理解相关镜头控制的内容。 Prompt。

更加注重对现实物理世界和人类表情的理解与展示。

官方帐户下，每个人都对这些效果感到惊讶：

谷歌真想输掉比赛，但谷歌并没有输。

另外，图像生成模型 Imagen 3 还有进一步的改进。

谷歌版 Sora2.0：重新定义质量和控制

质量与控制，这是本次视频模型升级的关键字。

除十分明显的清晰度提高-最高可达 4K 分辨率，它能忠实地遵循简单而复杂的指令 Prompt，并且能够站起来模拟现实世界中的物理和各种视觉风格。

具体体现在它的真实性和保真性上，如细节、伪影减少等方面都有明显的改善。

还有高级的运动功能，基于对物理的理解，可以更好地表达运动的性能。

也可以准确地遵循各种镜头控制类别。 Prompt，比如拍摄风格，视角，动作，以及所有这些搭配。

那么下一步就是直观地感受效果。

Prompt：一个女人专注于特写 DJ 脸部，她美丽而浓密的黑色卷发勾勒出她的五官，她完全沉浸在音乐中。她闭上眼睛，沉浸在节奏中，嘴角挂着一丝微笑。当她随着节奏点头摆动时，相机捕捉到了她头部的微妙动作，她的身体本能地随着耳机里的音乐做出反应，并传递给人群。浅景深使背景模糊。她被鲜艳的霓虹色包围着。特写强调她迷人的气质，音乐传递和超越的力量。

此外，这种集体蜂群也可以描绘出来。

Prompt：镜头轻轻飞过一排排刷过的木蜂箱，嗡嗡作响的蜜蜂在画面中进进出出。镜头落在站在画面中央的优雅农民身上，他雪白的养蜂服在金色的午后阳光下闪闪发光。为了捕捉光线，他举起一罐蜂蜜。身后，高大的向日葵在微风中有节奏地摇曳，花瓣在温暖的阳光下闪闪发光。镜头向上倾斜，露出一个复古的农舍，百叶窗是薄荷绿色的，摇曳的树木在墙上投下斑驳的阴影。用 35 柯达有mm镜头 Portra 400 在胶片上拍摄，金光在农民手套、果酱罐和蜂箱的风化木材上形成了丰富的线条。

也可切换镜头，从近距离到远距离，但是在镜头下，无论是蜂蜜还是咖啡的泡沫细节都有准确的描述。

Prompt：在一盘摆放整齐的早餐场景之后，太阳慢慢升起。厚厚的金枫糖浆用慢镜头倒在柔软的煎饼上，每一块煎饼都释放出柔软温暖的蒸汽云。在特写中，脆培根发出嘶嘶声，金色油脂的细小余烬在空中飞舞。在水晶般透明的杯子里，咖啡以光滑的旋转动作倒入，杯子里充满了深棕色的咖啡油层。场景结束后，相机俯冲到新鲜切好的橘子上，以惊人的微距细节展现其鲜艳多汁的果实。

因此，根据人类对其特性的评价，Veo 2 其表现优于其它领先的视频生成模型

在 Meta 基准数据集 MovieGenBench 事实上，人类参与者观看了 1003 视频提示和响应。

资料表明，与市场上的主流视频生成模型相比，Veo2.0 整个喜好，Prompt 在准确遵循指令方面表现最佳。

值得注意的是，这里除了 Sora，国产模型可灵，MiniMax 都上桌了。