Runway 最强文生视频模型开放首测,效果依然惊人,但不要急于付费。
文生视频工具的内卷,又一次升级,没有最卷,只有更卷。Runway Gen 3 Alpha 昨天打开付费用户首测,随着越来越多的用户进行检测、分享,可以看到许多绝世成果。
一名指挥官指导乐队演奏乐队。 图片来自:X 客户@RyanMorrisonJer
总的来说,电影还是十秒钟前的短视频,细节的精致度和流畅度都有很好的提升。当然,还是会出现一些无厘头的严重伤害。毕竟模型并不能真正理解物理世界。细节的改善主要包括人脸皮肤、光线折射、动物皮毛等。
一只熊猫在吃面条 图片来自:X 客户@takapon_jp
镜头移动的流畅性也很好,结合官方提供的流畅性。 prompt 单词,可以看出提供了更多关于拍摄手法的选择,用户只需输入指令,就可以更自由地呈现镜头运动,这是本次更新的一大亮点。
俯视赛博城市的夜景 图片来自:X 客户@AIeseshi
无独有偶,Luma 也在 6 月 30 更新自己的头尾帧功能,客户可以指定两张图片作为视频的起点和结束图片,模型会自己分析和完成整个视频。类似功能字节的即梦ai也提供,并不是什么新鲜事。
Luma 正式演示了头尾帧 图片来自:LumaLabsAI
既然赶上了前后脚的更新,用户难免会让几个人做同题比赛,抓对杀。除了 Luma,背靠 OpenAI 的 Sora 也不会被落下。
女人走在东京夜晚的街道上 图片来自:X 客户@keitowebai
就成片对比而言,Gen-3 还是很会打的。Gen-3 除上述流畅自然的镜头运动、景别转换外,对 prompt 对内容的理解也不错。自然,每个家庭或多或少,仍然存在物理逻辑硬伤,场景理解也存在问题。
上图为 Luma,下图为 Runway Gen-3 照片来自:顾客@shunchi_uu
然而,只有付费用户才能体验到。 Gen-3 Alpha,对订阅计划的相关信息进行了整理:
- 最低月付 15 每月支付美元,每年支付 12 美金/月
- 包括最低套餐 625 积分,每月自动更新,可额外付费购买。
- 可以使用最低套餐 Gen-3 Alpha,最长的视频时间是 10 秒
- 625 分数产出率约为125。 秒的 Gen-2 视频,44 秒的 Gen-1 视频,或 125 次文生图
- 支持无水印导出,最高视频支持4K ,最大支持照片 2K
考虑到 Gen-3 只要积分的消耗量比模型多,换算后制作的成本大概在一美元左右,价格不会被消耗。「打下来」。想要尝鲜的朋友,下面是链接传送门:
https://runwayml.com/ai-tools/gen-3-alpha/
有一点改善,但不多
值得注意的是,它在过渡中非常有创意,X 客户@JH4TC 把自己用 Gen-3 几个视频剪辑在一起,它们都涉及到主要目标从一个场景切换到另一个场景。
这一段,尽管镜头只是向前推,没有酷炫的动线,但是画面中的风景和需要快速而丝滑的变化,可以说,Gen-3 所以提供了非常好的「转场方案」。以下情况下,行驶路线要由雪变成树林,首先出现的是雪中的车辙痕迹,然后逐渐出现树叶。
这是一个合理而丝滑的过渡变化,符合一般影视制作的思路。类似地,跳伞员突然跳进了一个高空酒店房间。

所有图片均来自:X 客户@JH4TC
这是最大的案例 bug 是人物有三只手。但是,如果忽略了这个问题,在两个场景的切换中,墙的剖面一闪而过,这确实是一个常见的转换思路,经常发生。「一镜到底」在电影设计中。
期望管理,观念回归
看看这个时间点,Runway Gen-3 第一次测试就像一个回归观念的召唤:文化视频工具的定位不是一步到位直接完成创作,而是类似于其他大型产品,起到辅助作用,提供不同的选择,提高工作效率,减少工作量。
文生视频工具的本质,始终是为用户的创意需求,提供潜在的解决方案。比如 X 用户@bennash 分享出来的 Gen-3 同一主题出现在成品中。「imagine」,同样的玫瑰 马塞克花砖元素,Runway 给出了既相似又不同的片子。
以「imagine」绘制主题 图片来自:X 用户@bennash
是不是有点熟悉?本质上, Mid-journey 每一次 prompting 之后会收到一些图片,这也是同样的道理。在做之前,用户只需选择最接近自己想法的场景。 fine-tune,无须从 0 开始绘制,建造。
不同的是,目前的文化视频工具生成单个视频已经非常费力了。毕竟文字和动态图像的距离不小。像 MJ 这样,一次给出多个方案供选择暂时无法实现,客户只能一次又一次地尝试,最后的账单也可能是惊人的。
一卷又一卷,竞争步步升级。
Runway 曾经是文生视频的领先玩家, 从今年开始,这条赛道的形势发生了巨大的变化,Runway 先发优势,目前已被 Sora、Pika、Luma 等待快速追赶。
国内,快手生产的可灵灵 ai,字节制作的即梦 AI,Vidu科技生产的Vidu 等等,他们都在以最快的速度参加比赛。其中,精神表现最为突出,图像的细节和一致性令人惊叹,物理逻辑完全在可接受范围内。
可灵官方演示 图为:可灵ai
当Vidu发布时,曾经声称自己是「Sora的中国版本」,官方演示确实不错,但是后续很弱,还需要更多的观察。
官方演示Vidu 图片来自:Vidu
另外一个被认为是可以的 Sora 对决的是 PixVerse,来自爱诗科技,最新发布于五月。「魔术笔刷」功能性,能更准确地控制局部动态。
官方演示PixVerse 图片来自:PixVerse
即梦的本名是 Dreamina,背靠字节,在字节重码下注人工智能的前提下,即梦的表现也相当不错,尤其是影子和画面色彩,更加丰富。得益于字节的社会基因,社区的共享氛围活跃起来。

在车厢里回头看的年轻女子 图片来源:即梦客户@瓷瓷
从视频拍摄的角度来看,情景转换是比人物正反打、渲染气氛的空镜头更关键的环节——它可以代表故事情节的转折点,也可以代表人物状态的变化。
Gen-3 过渡设计和镜头运动的提高代表了具有一定创意能力的用户。在这样一个关键的创意节点上,图像浏览可以借助文化视频工具生成。在这个关键位置上,花点积分,制定几个浏览方案,有助于提高下游制作步骤的准确性和效率。
Runway 官方演示 图片来自:Runway
文化视频的内卷只会越来越激烈,没有人会怀疑接下来生成的图像会更高清、更流畅、更细腻,这只是时间问题。但是,当你进入下一阶段,你会面临更严格的眼光,这将是所有生成工具都需要面对的问题。
本文来自微信微信官方账号“APPSO”(ID:appsolution),作者:Selina,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




