4K、多模态,长视频:AI视频生成的下一个战场,谁在领先?
电子爱好者网报道(文章 / 李弯弯) 6 月 11 日,豆包 App 在线视频生成模型豆包 Seedance 1.0 pro。它是最新的字节跳动视频模型,支持文字和照片输入,可以生成多镜头无缝切换。 1080P 高质量的视频,主体运动的稳定性和画面的自然性。
有关技术报告显示,在世界知名评估名单中 Artificial Analysis 上,Seedance 文生视频、图生视频两项任务均排名第一,超越文生视频, Veo3、可灵 2.0 等待优秀模型。现在,这个模型已经通过了豆包 App、即梦 AI、对外开放火山引擎等渠道。
笔者在豆包 App 试一试,发现真的很方便好用。比如只需要在对话框中选择“照片移动”,上传照片或者输入文字指令,等待一段时间就可以生成视频。与之前的效果相比,新模型的视频结果更符合物理逻辑,充满生动的张力,同时可以保持原始人脸的保真度。
近年来,除了豆包的视频生成模型外,国内外还出现了很多视频生成模型,比如国外的。 Runway、Pika、Sora、Veo,国内有可灵,PixVerse、腾讯混元,通义万相同。
Runway
2025 年 4 月 8 日,Runway 官方表示,最新版本的视频模型已经推出。 Gen-4 Turbo。Gen-4Turbo 是 Runway Gen-4 最新迭代版系列。与之前的模型相比,Gen-4Turbo 在保证高保真度和动态运动性能的基础上,大大缩短了生成时间。使用 Gen-4 Turbo,用户只需 30 秒即可生成 10 秒视频,特别适合快速迭代和创意探索。Runway 方面表示,Gen-4Turbo 目前已逐步向所有付费用户开放,包括个人用户和企业客户。
Pika
当地时间 2024 年 12 月 13 日,美国 AI 创业公司的视频生成 Pika 推出了新版本的视频生成模型 Pika 2.0。Pika 2.0 其优良的可定制性、新推出的“情景调料”功能,用户可上传和定制角色、物体和场景等多种元素。通过先进的图像识别技术,这些元素可以完美地融入到场景中,使创作者能够更加精细地控制内容。
技术方面,Pika 2.0 在文本对齐和运动渲染方面取得了新的突破。系统可以准确理解和实施复杂的文本提醒,甚至极具挑战性的场景描述也可以完全转化为连贯的视频短片。无论是现实世界中的自然运动,还是科幻场景中的特效,都能表现出令人信服的效果。
Sora
2024 年 12 月,OpenAI 推出 AI 视频生成模型 Sora。OpenAI 这个工具不仅可以通过文本提醒生成视频,还可以根据静态图片和现有视频创建新的内容。例如,用户可以上传一个视频编辑,Sora 这一片段的后续画面将产生扩展,使视频更长、更完整。新版工具 Sora Turbo 能产生最长的达 20 秒视频,并能为这些视频提供各种组合。
Veo 3
在今年 5 月的 I/O 在开发者大会上,谷歌发布了第三代视频生成模型 Veo 3。Veo 3 能根据提示词生成高质量的视频,同时一键生成与画面同步的对话,唇动对齐,拟真环境音效,情感气氛音轨。其底层技术 V2A(Video-to-Audio)通过将视频像素转换成语义信号,结合文本提醒生成同步音频波型,实现音画同步。
Veo 3 基于对物理世界的深刻理解,音画同步功能可以实时产生与画面相匹配的声音,如脚步声、烹饪声等。,而不是后期拼接。此外,Veo 3 还可以精确地捕捉画面情感,渲染气氛音效,甚至在多角色、多风格的复杂场景中表现出色。关于对长提示词的理解和事件流的产生,Veo 3 还可以处理复杂的事件流,生成逻辑连贯、多步实施的视频短片。
可灵 AI
2025 年 4 月 15 日,可灵 AI 宣布升级底座模型,正式向全球发布可灵 2.0 视频生成模型及可图 2.0 图像生成模型。可灵是世界上第一个客户可以使用的。 DiT(Diffusion Transformer)视频生成模型,它 2.0 该版本的模型在动态质量、语义响应和画面美学方面都有了相应的提高,而且可图。 2.0 该模型主要集中在指令遵循、电影质感和艺术风格表现等方面。
5 月 29 日,可灵 AI 宣布,推出全新可灵 2.1 系列模型。可灵 2.1 模型包含标准(720p)、优质(1080p)两种模式,主要推广性价比高、生成效率高。生成高质量的方法(1080p) 5s 只需不到视频 1 分钟,处于行业领先水平。在动态性能方面,模型具有更好的动态细节、更强的动态响应和更大的动态范围;其次,物理模拟更准确,人物动作范围更贴近现实。
PixVerse(拍我 AI)
近期,美国 iOS 应用商店有了新的变化。世界上用户最多的国产产品 AI 一个视频生成平台—— PixVerse 更新了 4.5 这个版本,突然冲向美国 iOS 应用商店排行榜第四,视频类应用第一。今年 6 月初,PixVerse 正式推出国产产品-拍我。 AI,网页端和移动端应用同步上线,最新开放 V4.5 用户可以使用模型。据介绍,PixVerse 自海外推出以来,已经吸引了全球超级。 6000 万用户,月活跃用户突破 1600 万,居 AI 在视频生成领域,第一梯队。
V4.5 该模型在生成速度、画面精细度、多主体控制等方面都有了显著提高,支持更复杂的电影级运镜和多角色互动叙事。"拍我 AI "选用" App 网页端“双端策略,满足不同客户群体的需求:App 主要推广趣味性和低门槛感,内置100多个创意模板,如“宠物舞蹈”、“吐火特效”等。客户可以通过上传一张照片一键生成高质量的短视频,大大降低 AI 技术门槛的视频创作。
网页为专业创作者提供更详细的参数调节功能,支持多主体运动控制、动态镜头和智能音效匹配,适用于短剧制作、广告创意、游戏开发等高级需求。
除服务 C 终端户外,“拍我 AI “也推出了企业级 API 开放平台已与百度、科大讯飞、蓝光标等国内龙头企业达成合作,提供高效的视频生成工具。企业可以通过 API 快速生成营销视频、电子商务资料、私域运营内容等,大大降低了传统视频制作的成本和时间。
腾讯混元
基于图片视频的能力,用户只需要上传一张图片,简单描述一下如何移动图片,如何调度镜头等。混合元可以根据用户的要求移动图片,变成 5 秒视频,也可以自动匹配合适的背景音效。另外,上传一张人物图片,输入想要“对口型”的文字或音频,图片中的人物可以“说话”或“唱歌”;若选择动作模板,也可以一键生成同一个舞蹈视频。现在用户使用混元 AI 视频可以在官网感受到,企业和开发者可以申请使用腾讯云。 API 接口使用。
通义万相
2024 年 9 月 19 日,在杭州云栖大会上,阿里云 CTO 周靖人宣布全新升级通义万相,发布全新视频生成模型,可生成影视超清视频,可应用于影视创作、动画设计、广告设计等领域。从现在开始,所有用户都可以通过通义 APP 免费试用通义万相官网。
通义万相首批在线文字视频和图片视频功能。在文字视频功能中,用户可以通过输入随机文字提示来生成一个超清晰的视频,支持中英文多语言输入,通过灵感扩展功能可以智能丰富视频内容的感染力,支持 16:9、9:16 等比例生成;在图片视频功能中,支持用户将随机图片转换为动态视频,视频运动可根据上传的图像比例或预设比例生成,视频运动可由提示词控制。在现场,阿里云展示了该模型强大的运动生成和概念组合能力,输入了“穿着滑冰鞋的兔子在冰上灵活移动的可爱场景”。通义万相只需要几分钟就能生成一个超清晰逼真的视频。
写在最后
AI 在影视制作领域,视频生成工具具有相当大的市场前景,AI 可以承担分镜设计、后期渲染等任务,降低生产成本,缩短周期;在广告和营销领域,可以通过数字人的形象和用户的实时互动,支持批量生成个性化广告,提高转化率;在教育领域,可以模拟复杂的操作步骤,提供 3D 提高学习效率的动态演示。
现在国内外企业已经推出了许多 AI 模型工具的视频生成。主流模型在技术迭代方面已实现。 4K 分辨率、60 秒以上的视频生成,并且支持包括文本、图像、音频在内的多模态输入。即便如此,AI 视频生成还有很多缺点,比如复杂的物理交互还是容易出错;大多数模型仍然很难长时间生成视频;高分辨率视频的生成需要强大的硬件支持,高昂的练习和推理成本。所以,从模型或硬件支持的角度来看,AI 还需要不断优化视频生成模型。
阅读更多热门文章
加关注 星标我们
把我们设为星标,不要错过每一次更新!
喜欢就奖励一个“在看”!
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




