谷歌发布了一个新模型,顺手确认Sora是最好的。

2024-12-18

谷歌继续努力更新基本模型,当OpenAI发布会仍在“商品雕刻”。半个月前,3D场景生成了基本模型,一周前,Gemini杀死了四面八方。 今天是一个视频生成模型。


在北京时间12月17日,谷歌发布了Veo2的下一个版本,Veo2的文学视频模型。这次升级距离谷歌在今年5月的I/O会议上首次宣布Veo已经7个月了。


但是Veo只在十天前的12月3日才登上Axtrix,在此之前,客户只能使用VideoFX中的实验工具小规模试用这个视频生成软件。


这个版本主要带来三个核心升级。第一,真实感和保真度大大提高,它支持8s的长度。、清晰度为4K视频输出,大大提高了细节、真实性和伪影的减少。


其次,Veo可以高度准确地捕捉运动,因为它理解物理并遵循详细的指令。这是Sora前几天频繁翻车的地方。


第三,Veo 2还提供了更多的相机控制选项,您可以输入“镜头慢慢推动她的脸”等内容。、在追逐车辆的过程中,摄像机保持稳定。、用“极近的特写”来描述你想要的镜头方式。



当然,从目前谷歌提出的案例来看,Veo 2 对物理世界的认知确实达到了相当高的水平,尤其是人类甚至昆虫的动作表现。这些动作与世界互动具有很强的自然感。比如这种只用喙打猎的火烈鸟,不希望Sora前几天演示的火山爆发般夸张。



Veo在具体测试中也获得了SOTA的水平。谷歌选择了Meta发布的基准数据集MovieGenBench的其他顶级模型,包括Sora。 上比拼了 1003 提示及其对应的视频。


从整体表现来看,Veo占优的情况接近或超过50%,不占劣势的情况可以达到70%左右。



比较有趣的事情,Sora 在谷歌测试的所有模型中,Turbo实际上表现最差,而表现最好的是可灵1.5。



Veo表现在指令遵循方面也达到了SOTA,其它模型也与整体表现排名没有太大区别。


报告中,谷歌承认他的模型也有缺点。在复杂的场景或复杂的运动中,保持完全一致性仍然无法突破。在他们自己给出的案例中,仍然会有凭空出现的人物。在运动中,人们可能仍然会有不自然的“AI扭曲”。



在推特上,已经有网友测试过了。说明Veo2的画面控制和运动能力是值得的。提示词是“一个人坐在咖啡馆里喝咖啡的视频。过了一会儿,镜头切换到另一个角度,显示旁边桌子上的人在给他们寄信。”的情况下,Veo 2能很好地完成导演叙事的镜头切换,写作动作也很自然。



把同样的提示给Sora,首先很难实现镜头切换。对于提示词,两个人没有坐在一起,画面中只有一个人。而且写作动作有点像悬空画笔。



我们还测试了其他顶级模型。比如海螺,很难实现镜头切换,但是部分镜头切换的思路是通过变焦来完成的,空间和两个角色的关系也符合提示。



混元的影视气氛直接打满了,也完成了切镜。但是录像中两人的关系并没有那么明确。



可灵的确是最好的表现之一,切镜,两人的关系都把握住了。除美学和细节外,还不如Veo 另外,其他部分几乎是完美的。



在另一个测试中,使用相同的提示词



这是Veo 2的结果



那是Sora的结果



尽管Veo2的输出是有缺陷的,但是Sora这个缓慢而空洞的场景已经输出了太多。


对于其它模型来说,可灵输出情景感很好,但是弄臣的现实很刻意,从空间关系来看也不太可能,其中还有许多残影。



另一方面,海螺在提示词上仅次于Veo2,但并不符合“镜头从女王身后采集”的要求。但是细节的恢复比Veo2差很多。



看了这么久,谷歌评价里说的Sora最差不是没有道理的。


OpenAI的皇冠在2025年开始之前看起来有点不稳定。难怪就连微软CEO最近也在采访中大声说:“没有OpenAI,我们也可以开发出最一流的模型。”


看起来,在这场AI战争中,还有一些逆转的好戏。


但是谷歌这次还是没有改变画饼的问题。Veo2 现在还处于内测阶段,只能在VideoFX上排队申请。我希望它能在25年内提高所有的数量和新产品的发布速度。把画饼师傅定位给OpenAI。毕竟Sora花了9个月才发出来,堪比过去的谷歌。


本文来自微信微信官方账号“腾讯科技”,作者:郝博阳,编辑:郑可君,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com