Google大幅更新生成AI,推出VEO视频模型 Imagen32和最新版本
作家:赵雨荷
谷歌的旗舰 AI 研究实验室 Google DeepMind 星期一,人工智能驱动的内容生成工具大幅升级,推出 Veo 2 视频生成模型和增强版 Imagen 3 图像模型,挑战 OpenAI 在 AI 图像和视频生成的领先水平。谷歌表示,这些更新有望彻底改变创意工作流程,为视频和图像创作者提供更高的真实感和定制感。
谷歌介绍,Veo 2 它是谷歌的视频生成工具,可以生成主题和风格多样的高质量视频。谷歌在博客中说,这种模式在真实性方面表现出色,可以捕捉到人类表情和电影效果的细节。其强化的物理和电影理解能力使用户能够生成惊人的内容,包括跟踪镜头和广角构图。
比如,Veo 2 熟悉电影拍摄语言,用户可以要求某一类型的风格,指定镜头,推荐电影效果,Veo 2 都会以高达 4K 将分辨率延长到几分钟的视频长度来呈现。举例来说,要求“低视角跟踪镜头穿越场景中心”或“特写科学家通过显微镜观察”的画面,Veo 2 都能实现。提醒" 18mm 镜头",Veo 2 了解广角镜头的生成;要求“浅景深”,它会模糊背景,突出主体。
值得注意的是,这个分辨率是 OpenAI Sora 模型 4 倍数,视频时长更是其中之一 6 倍以上。
然而,目前这些优势仍然是理论上的。谷歌的实验视频创作工具 VideoFX 中,Veo 2 生成的视频受到限制 720p 分辨率、8 秒长。(相比之下,Sora 最大输出为 1080p、20 秒短片。)
谷歌表示,虽然视频生成模型通常会“幻想化”不必要的细节,例如多余的手指或意想不到的物体, Veo 2 这个方面的表现比较真实,产生错误的次数也比较少。
此外,Veo 2 产生的视频包含看不见的视频。 SynthID 水印,用来标记它们。 AI 产生的内容,从而降低误用或错误归属的风险。
DeepMind 商品副总裁 Eli Collins 据媒体报道,随着模型逐步准备大规模使用,谷歌将使用它。 Vertex AI 开发者平台提供 Veo 2。
“在接下来的几个月里,我们会根据用户的反馈不断迭代,寻求未来。 Veo 2 将更新能力整合到谷歌生态系统的相关应用中…我们预计明年将分享更多更新内容。”
目前,开发者和创作者可通过谷歌实验室(Google Labs)浏览这个工具,预计 2025 2008年,这将普遍集成到例如 YouTube Shorts 等渠道。
同时,Imagen 3 模型增强了图像构图和细节的准确性,支持从现实到抽象的各种风格,可以产生更丰富的线条,更忠实地回应客户提醒。
目前,Imagen 3 谷歌实验室已通过 ImageFX 工具在 100 全球用户可以在多个国家上线,实验其尖端功能。
另外,谷歌也推出了 Whisk,它是一种融合 Imagen 3 和 Gemini 创意工具具有视觉分析能力。使用者可输入图像,生成详细的文字描述,再混合风格,或设计个性化作品,如数字娃娃或塘瓷勋章。
谷歌介绍,Whisk 融合了 Imagen 3 模型和 Gemini 视觉理解和描述能力。Gemini 模型将自动为用户的图像生成详细的文本描述,并将这些描述传达给用户。 Imagen 3。这个过程使用户能以有趣的新方式再次混合主题、情境和风格。
本文来自微信微信官方账号。 AI ",多关注一下 AI 请在这里移动前沿信息
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com



