Google大幅更新生成AI，推出VEO视频模型 Imagen32和最新版本

2024-12-18

作家：赵雨荷

谷歌的旗舰 AI 研究实验室 Google DeepMind 星期一，人工智能驱动的内容生成工具大幅升级，推出 Veo 2 视频生成模型和增强版 Imagen 3 图像模型，挑战 OpenAI 在 AI 图像和视频生成的领先水平。谷歌表示，这些更新有望彻底改变创意工作流程，为视频和图像创作者提供更高的真实感和定制感。

谷歌介绍，Veo 2 它是谷歌的视频生成工具，可以生成主题和风格多样的高质量视频。谷歌在博客中说，这种模式在真实性方面表现出色，可以捕捉到人类表情和电影效果的细节。其强化的物理和电影理解能力使用户能够生成惊人的内容，包括跟踪镜头和广角构图。

比如，Veo 2 熟悉电影拍摄语言，用户可以要求某一类型的风格，指定镜头，推荐电影效果，Veo 2 都会以高达 4K 将分辨率延长到几分钟的视频长度来呈现。举例来说，要求“低视角跟踪镜头穿越场景中心”或“特写科学家通过显微镜观察”的画面，Veo 2 都能实现。提醒" 18mm 镜头"，Veo 2 了解广角镜头的生成；要求“浅景深”，它会模糊背景，突出主体。

值得注意的是，这个分辨率是 OpenAI Sora 模型 4 倍数，视频时长更是其中之一 6 倍以上。

然而，目前这些优势仍然是理论上的。谷歌的实验视频创作工具 VideoFX 中，Veo 2 生成的视频受到限制 720p 分辨率、8 秒长。(相比之下，Sora 最大输出为 1080p、20 秒短片。)

谷歌表示，虽然视频生成模型通常会“幻想化”不必要的细节，例如多余的手指或意想不到的物体， Veo 2 这个方面的表现比较真实，产生错误的次数也比较少。

此外，Veo 2 产生的视频包含看不见的视频。 SynthID 水印，用来标记它们。 AI 产生的内容，从而降低误用或错误归属的风险。

DeepMind 商品副总裁 Eli Collins 据媒体报道，随着模型逐步准备大规模使用，谷歌将使用它。 Vertex AI 开发者平台提供 Veo 2。

“在接下来的几个月里，我们会根据用户的反馈不断迭代，寻求未来。 Veo 2 将更新能力整合到谷歌生态系统的相关应用中…我们预计明年将分享更多更新内容。”

目前，开发者和创作者可通过谷歌实验室（Google Labs）浏览这个工具，预计 2025 2008年，这将普遍集成到例如 YouTube Shorts 等渠道。

同时，Imagen 3 模型增强了图像构图和细节的准确性，支持从现实到抽象的各种风格，可以产生更丰富的线条，更忠实地回应客户提醒。

目前，Imagen 3 谷歌实验室已通过 ImageFX 工具在 100 全球用户可以在多个国家上线，实验其尖端功能。

另外，谷歌也推出了 Whisk，它是一种融合 Imagen 3 和 Gemini 创意工具具有视觉分析能力。使用者可输入图像，生成详细的文字描述，再混合风格，或设计个性化作品，如数字娃娃或塘瓷勋章。

谷歌介绍，Whisk 融合了 Imagen 3 模型和 Gemini 视觉理解和描述能力。Gemini 模型将自动为用户的图像生成详细的文本描述，并将这些描述传达给用户。 Imagen 3。这个过程使用户能以有趣的新方式再次混合主题、情境和风格。

本文来自微信微信官方账号。 AI "，多关注一下 AI 请在这里移动前沿信息

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

极寒战争！长二丁火箭成功发射航天宏图PIESAT-2 09~12星

谷歌版Sora升级4K超清！一句话控制镜头运动，跑分叫嚣可灵海螺

尚阳通“卖身”友阿股份，37名股东寻找溢价撤出。

面对同行K80，2199元起售！荣耀GT新产品发布会总结

库里公开了他的退休计划，希望能够以自己的方式退休。

项目推荐

AI云印侠

幸福绩效

企业数字化人才孵化系统