4K、多模态，长视频：AI视频生成的下一个战场，谁在领先？

06-17 07:07

电子爱好者网报道(文章 / 李弯弯） 6 月 11 日，豆包 App 在线视频生成模型豆包 Seedance 1.0 pro。它是最新的字节跳动视频模型，支持文字和照片输入，可以生成多镜头无缝切换。 1080P 高质量的视频，主体运动的稳定性和画面的自然性。

有关技术报告显示，在世界知名评估名单中 Artificial Analysis 上，Seedance 文生视频、图生视频两项任务均排名第一，超越文生视频， Veo3、可灵 2.0 等待优秀模型。现在，这个模型已经通过了豆包 App、即梦 AI、对外开放火山引擎等渠道。

笔者在豆包 App 试一试，发现真的很方便好用。比如只需要在对话框中选择“照片移动”，上传照片或者输入文字指令，等待一段时间就可以生成视频。与之前的效果相比，新模型的视频结果更符合物理逻辑，充满生动的张力，同时可以保持原始人脸的保真度。

近年来，除了豆包的视频生成模型外，国内外还出现了很多视频生成模型，比如国外的。 Runway、Pika、Sora、Veo，国内有可灵，PixVerse、腾讯混元，通义万相同。

Runway

2025 年 4 月 8 日，Runway 官方表示，最新版本的视频模型已经推出。 Gen-4 Turbo。Gen-4Turbo 是 Runway Gen-4 最新迭代版系列。与之前的模型相比，Gen-4Turbo 在保证高保真度和动态运动性能的基础上，大大缩短了生成时间。使用 Gen-4 Turbo，用户只需 30 秒即可生成 10 秒视频，特别适合快速迭代和创意探索。Runway 方面表示，Gen-4Turbo 目前已逐步向所有付费用户开放，包括个人用户和企业客户。

Pika

当地时间 2024 年 12 月 13 日，美国 AI 创业公司的视频生成 Pika 推出了新版本的视频生成模型 Pika 2.0。Pika 2.0 其优良的可定制性、新推出的“情景调料”功能，用户可上传和定制角色、物体和场景等多种元素。通过先进的图像识别技术，这些元素可以完美地融入到场景中，使创作者能够更加精细地控制内容。

技术方面，Pika 2.0 在文本对齐和运动渲染方面取得了新的突破。系统可以准确理解和实施复杂的文本提醒，甚至极具挑战性的场景描述也可以完全转化为连贯的视频短片。无论是现实世界中的自然运动，还是科幻场景中的特效，都能表现出令人信服的效果。

Sora

2024 年 12 月，OpenAI 推出 AI 视频生成模型 Sora。OpenAI 这个工具不仅可以通过文本提醒生成视频，还可以根据静态图片和现有视频创建新的内容。例如，用户可以上传一个视频编辑，Sora 这一片段的后续画面将产生扩展，使视频更长、更完整。新版工具 Sora Turbo 能产生最长的达 20 秒视频，并能为这些视频提供各种组合。

Veo 3

在今年 5 月的 I/O 在开发者大会上，谷歌发布了第三代视频生成模型 Veo 3。Veo 3 能根据提示词生成高质量的视频，同时一键生成与画面同步的对话，唇动对齐，拟真环境音效，情感气氛音轨。其底层技术 V2A（Video-to-Audio）通过将视频像素转换成语义信号，结合文本提醒生成同步音频波型，实现音画同步。

Veo 3 基于对物理世界的深刻理解，音画同步功能可以实时产生与画面相匹配的声音，如脚步声、烹饪声等。，而不是后期拼接。此外，Veo 3 还可以精确地捕捉画面情感，渲染气氛音效，甚至在多角色、多风格的复杂场景中表现出色。关于对长提示词的理解和事件流的产生，Veo 3 还可以处理复杂的事件流，生成逻辑连贯、多步实施的视频短片。

可灵 AI

2025 年 4 月 15 日，可灵 AI 宣布升级底座模型，正式向全球发布可灵 2.0 视频生成模型及可图 2.0 图像生成模型。可灵是世界上第一个客户可以使用的。 DiT（Diffusion Transformer）视频生成模型，它 2.0 该版本的模型在动态质量、语义响应和画面美学方面都有了相应的提高，而且可图。 2.0 该模型主要集中在指令遵循、电影质感和艺术风格表现等方面。

5 月 29 日，可灵 AI 宣布，推出全新可灵 2.1 系列模型。可灵 2.1 模型包含标准(720p)、优质(1080p)两种模式，主要推广性价比高、生成效率高。生成高质量的方法(1080p) 5s 只需不到视频 1 分钟，处于行业领先水平。在动态性能方面，模型具有更好的动态细节、更强的动态响应和更大的动态范围；其次，物理模拟更准确，人物动作范围更贴近现实。

PixVerse（拍我 AI）

近期，美国 iOS 应用商店有了新的变化。世界上用户最多的国产产品 AI 一个视频生成平台—— PixVerse 更新了 4.5 这个版本，突然冲向美国 iOS 应用商店排行榜第四，视频类应用第一。今年 6 月初，PixVerse 正式推出国产产品-拍我。 AI，网页端和移动端应用同步上线，最新开放 V4.5 用户可以使用模型。据介绍，PixVerse 自海外推出以来，已经吸引了全球超级。 6000 万用户，月活跃用户突破 1600 万，居 AI 在视频生成领域，第一梯队。

V4.5 该模型在生成速度、画面精细度、多主体控制等方面都有了显著提高，支持更复杂的电影级运镜和多角色互动叙事。"拍我 AI "选用" App 网页端“双端策略，满足不同客户群体的需求：App 主要推广趣味性和低门槛感，内置100多个创意模板，如“宠物舞蹈”、“吐火特效”等。客户可以通过上传一张照片一键生成高质量的短视频，大大降低 AI 技术门槛的视频创作。

网页为专业创作者提供更详细的参数调节功能，支持多主体运动控制、动态镜头和智能音效匹配，适用于短剧制作、广告创意、游戏开发等高级需求。

除服务 C 终端户外，“拍我 AI “也推出了企业级 API 开放平台已与百度、科大讯飞、蓝光标等国内龙头企业达成合作，提供高效的视频生成工具。企业可以通过 API 快速生成营销视频、电子商务资料、私域运营内容等，大大降低了传统视频制作的成本和时间。

腾讯混元

基于图片视频的能力，用户只需要上传一张图片，简单描述一下如何移动图片，如何调度镜头等。混合元可以根据用户的要求移动图片，变成 5 秒视频，也可以自动匹配合适的背景音效。另外，上传一张人物图片，输入想要“对口型”的文字或音频，图片中的人物可以“说话”或“唱歌”；若选择动作模板，也可以一键生成同一个舞蹈视频。现在用户使用混元 AI 视频可以在官网感受到，企业和开发者可以申请使用腾讯云。 API 接口使用。

通义万相

2024 年 9 月 19 日，在杭州云栖大会上，阿里云 CTO 周靖人宣布全新升级通义万相，发布全新视频生成模型，可生成影视超清视频，可应用于影视创作、动画设计、广告设计等领域。从现在开始，所有用户都可以通过通义 APP 免费试用通义万相官网。

通义万相首批在线文字视频和图片视频功能。在文字视频功能中，用户可以通过输入随机文字提示来生成一个超清晰的视频，支持中英文多语言输入，通过灵感扩展功能可以智能丰富视频内容的感染力，支持 16:9、9:16 等比例生成；在图片视频功能中，支持用户将随机图片转换为动态视频，视频运动可根据上传的图像比例或预设比例生成，视频运动可由提示词控制。在现场，阿里云展示了该模型强大的运动生成和概念组合能力，输入了“穿着滑冰鞋的兔子在冰上灵活移动的可爱场景”。通义万相只需要几分钟就能生成一个超清晰逼真的视频。

写在最后

AI 在影视制作领域，视频生成工具具有相当大的市场前景，AI 可以承担分镜设计、后期渲染等任务，降低生产成本，缩短周期；在广告和营销领域，可以通过数字人的形象和用户的实时互动，支持批量生成个性化广告，提高转化率；在教育领域，可以模拟复杂的操作步骤，提供 3D 提高学习效率的动态演示。

现在国内外企业已经推出了许多 AI 模型工具的视频生成。主流模型在技术迭代方面已实现。 4K 分辨率、60 秒以上的视频生成，并且支持包括文本、图像、音频在内的多模态输入。即便如此，AI 视频生成还有很多缺点，比如复杂的物理交互还是容易出错；大多数模型仍然很难长时间生成视频；高分辨率视频的生成需要强大的硬件支持，高昂的练习和推理成本。所以，从模型或硬件支持的角度来看，AI 还需要不断优化视频生成模型。

阅读更多热门文章

加关注星标我们

把我们设为星标，不要错过每一次更新！