谷歌版Sora升级4K超清!一句话控制镜头运动,跑分叫嚣可灵海螺
OpenAI 现场划水的一天,谷歌版 Sora 迎来了它的 2.0 ——
Veo 2,更高质量的视频是根据文字或图像生成的。
根据官方的介绍,这次的升级主要有三个方面。
比如可以达到分辨率 4K。
能理解相关镜头控制的内容。 Prompt。
更加注重对现实物理世界和人类表情的理解与展示。
官方帐户下,每个人都对这些效果感到惊讶:
谷歌真想输掉比赛,但谷歌并没有输。
另外,图像生成模型 Imagen 3 还有进一步的改进。
谷歌版 Sora2.0:重新定义质量和控制
质量与控制,这是本次视频模型升级的关键字。
除十分明显的清晰度提高-最高可达 4K 分辨率,它能忠实地遵循简单而复杂的指令 Prompt,并且能够站起来模拟现实世界中的物理和各种视觉风格。
具体体现在它的真实性和保真性上,如细节、伪影减少等方面都有明显的改善。
还有高级的运动功能,基于对物理的理解,可以更好地表达运动的性能。
也可以准确地遵循各种镜头控制类别。 Prompt,比如拍摄风格,视角,动作,以及所有这些搭配。
那么下一步就是直观地感受效果。
Prompt:一个女人专注于特写 DJ 脸部,她美丽而浓密的黑色卷发勾勒出她的五官,她完全沉浸在音乐中。她闭上眼睛,沉浸在节奏中,嘴角挂着一丝微笑。当她随着节奏点头摆动时,相机捕捉到了她头部的微妙动作,她的身体本能地随着耳机里的音乐做出反应,并传递给人群。浅景深使背景模糊。她被鲜艳的霓虹色包围着。特写强调她迷人的气质,音乐传递和超越的力量。
此外,这种集体蜂群也可以描绘出来。
Prompt:镜头轻轻飞过一排排刷过的木蜂箱,嗡嗡作响的蜜蜂在画面中进进出出。镜头落在站在画面中央的优雅农民身上,他雪白的养蜂服在金色的午后阳光下闪闪发光。为了捕捉光线,他举起一罐蜂蜜。身后,高大的向日葵在微风中有节奏地摇曳,花瓣在温暖的阳光下闪闪发光。镜头向上倾斜,露出一个复古的农舍,百叶窗是薄荷绿色的,摇曳的树木在墙上投下斑驳的阴影。用 35 柯达有mm镜头 Portra 400 在胶片上拍摄,金光在农民手套、果酱罐和蜂箱的风化木材上形成了丰富的线条。
也可切换镜头,从近距离到远距离,但是在镜头下,无论是蜂蜜还是咖啡的泡沫细节都有准确的描述。
Prompt:在一盘摆放整齐的早餐场景之后,太阳慢慢升起。厚厚的金枫糖浆用慢镜头倒在柔软的煎饼上,每一块煎饼都释放出柔软温暖的蒸汽云。在特写中,脆培根发出嘶嘶声,金色油脂的细小余烬在空中飞舞。在水晶般透明的杯子里,咖啡以光滑的旋转动作倒入,杯子里充满了深棕色的咖啡油层。场景结束后,相机俯冲到新鲜切好的橘子上,以惊人的微距细节展现其鲜艳多汁的果实。
因此,根据人类对其特性的评价,Veo 2 其表现优于其它领先的视频生成模型
在 Meta 基准数据集 MovieGenBench 事实上,人类参与者观看了 1003 视频提示和响应。
资料表明,与市场上的主流视频生成模型相比,Veo2.0 整个喜好,Prompt 在准确遵循指令方面表现最佳。
值得注意的是,这里除了 Sora,国产模型可灵,MiniMax 都上桌了。
一切比较都在那里 720P 在分辨率中进行,Veo 取样时长为 8 秒,VideoGen 取样时长为 10 秒,其它型号的取样时间为 5 秒。我们向评分者展示完整的视频时间。
最后,他们表示,在复杂的场景或复杂的运动场景中建立真实、动态或复杂的视频并保持完全一致仍然是一个挑战。他们将继续开发和优化这些领域的性能。
图像模型 Imagen 3 也增强了
此外,它还增强了它们的图像生成模型。 Imagen 3。
能产生现实主义、梦幻、肖像画等多样化的艺术风格。
生成的图像将更加忠诚于生成 Prompt,就算这个 Prompt 多么离谱。(Doge)
而且从各种生成的图像来看,视觉效果也比以前更加明亮,构图也更加平衡。
好了,有兴趣的朋友可以戳下面的链接了解更多细节。
参考链接:
[ 1 ] https://deepmind.google/technologies/veo/veo-2/
[ 2 ] https://x.com/GoogleDeepMind/status/1868703624714395907
[ 3 ] https://deepmind.google/technologies/imagen-3/
— 完 —
点这里� � 注意我,记住标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相遇。 ~
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com



