Runway 最强文生视频模型开放首测，效果依然惊人，但不要急于付费。

2024-07-05

文生视频工具的内卷，又一次升级，没有最卷，只有更卷。Runway Gen 3 Alpha 昨天打开付费用户首测，随着越来越多的用户进行检测、分享，可以看到许多绝世成果。

一名指挥官指导乐队演奏乐队。图片来自：X 客户@RyanMorrisonJer

总的来说，电影还是十秒钟前的短视频，细节的精致度和流畅度都有很好的提升。当然，还是会出现一些无厘头的严重伤害。毕竟模型并不能真正理解物理世界。细节的改善主要包括人脸皮肤、光线折射、动物皮毛等。

一只熊猫在吃面条图片来自：X 客户@takapon_jp

镜头移动的流畅性也很好，结合官方提供的流畅性。 prompt 单词，可以看出提供了更多关于拍摄手法的选择，用户只需输入指令，就可以更自由地呈现镜头运动，这是本次更新的一大亮点。

俯视赛博城市的夜景图片来自：X 客户@AIeseshi

无独有偶，Luma 也在 6 月 30 更新自己的头尾帧功能，客户可以指定两张图片作为视频的起点和结束图片，模型会自己分析和完成整个视频。类似功能字节的即梦ai也提供，并不是什么新鲜事。

Luma 正式演示了头尾帧图片来自：LumaLabsAI

既然赶上了前后脚的更新，用户难免会让几个人做同题比赛，抓对杀。除了 Luma，背靠 OpenAI 的 Sora 也不会被落下。

女人走在东京夜晚的街道上图片来自：X 客户@keitowebai

就成片对比而言，Gen-3 还是很会打的。Gen-3 除上述流畅自然的镜头运动、景别转换外，对 prompt 对内容的理解也不错。自然，每个家庭或多或少，仍然存在物理逻辑硬伤，场景理解也存在问题。

上图为 Luma，下图为 Runway Gen-3 照片来自：顾客@shunchi_uu

然而，只有付费用户才能体验到。 Gen-3 Alpha，对订阅计划的相关信息进行了整理：

最低月付 15 每月支付美元，每年支付 12 美金/月
包括最低套餐 625 积分，每月自动更新，可额外付费购买。
可以使用最低套餐 Gen-3 Alpha，最长的视频时间是 10 秒
625 分数产出率约为125。秒的 Gen-2 视频，44 秒的 Gen-1 视频，或 125 次文生图
支持无水印导出，最高视频支持4K ，最大支持照片 2K

考虑到 Gen-3 只要积分的消耗量比模型多，换算后制作的成本大概在一美元左右，价格不会被消耗。「打下来」。想要尝鲜的朋友，下面是链接传送门：

https://runwayml.com/ai-tools/gen-3-alpha/

有一点改善，但不多

值得注意的是，它在过渡中非常有创意，X 客户@JH4TC 把自己用 Gen-3 几个视频剪辑在一起，它们都涉及到主要目标从一个场景切换到另一个场景。

这一段，尽管镜头只是向前推，没有酷炫的动线，但是画面中的风景和需要快速而丝滑的变化，可以说，Gen-3 所以提供了非常好的「转场方案」。以下情况下，行驶路线要由雪变成树林，首先出现的是雪中的车辙痕迹，然后逐渐出现树叶。

这是一个合理而丝滑的过渡变化，符合一般影视制作的思路。类似地，跳伞员突然跳进了一个高空酒店房间。

所有图片均来自：X 客户@JH4TC

这是最大的案例 bug 是人物有三只手。但是，如果忽略了这个问题，在两个场景的切换中，墙的剖面一闪而过，这确实是一个常见的转换思路，经常发生。「一镜到底」在电影设计中。

期望管理，观念回归

看看这个时间点，Runway Gen-3 第一次测试就像一个回归观念的召唤:文化视频工具的定位不是一步到位直接完成创作，而是类似于其他大型产品，起到辅助作用，提供不同的选择，提高工作效率，减少工作量。

文生视频工具的本质，始终是为用户的创意需求，提供潜在的解决方案。比如 X 用户@bennash 分享出来的 Gen-3 同一主题出现在成品中。「imagine」，同样的玫瑰马塞克花砖元素，Runway 给出了既相似又不同的片子。

以「imagine」绘制主题图片来自：X 用户@bennash

是不是有点熟悉？本质上， Mid-journey 每一次 prompting 之后会收到一些图片，这也是同样的道理。在做之前，用户只需选择最接近自己想法的场景。 fine-tune，无须从 0 开始绘制，建造。

不同的是，目前的文化视频工具生成单个视频已经非常费力了。毕竟文字和动态图像的距离不小。像 MJ 这样，一次给出多个方案供选择暂时无法实现，客户只能一次又一次地尝试，最后的账单也可能是惊人的。

一卷又一卷，竞争步步升级。

Runway 曾经是文生视频的领先玩家，从今年开始，这条赛道的形势发生了巨大的变化，Runway 先发优势，目前已被 Sora、Pika、Luma 等待快速追赶。

国内，快手生产的可灵灵 ai，字节制作的即梦 AI，Vidu科技生产的Vidu 等等，他们都在以最快的速度参加比赛。其中，精神表现最为突出，图像的细节和一致性令人惊叹，物理逻辑完全在可接受范围内。

可灵官方演示图为：可灵ai

当Vidu发布时，曾经声称自己是「Sora的中国版本」，官方演示确实不错，但是后续很弱，还需要更多的观察。

官方演示Vidu 图片来自：Vidu

另外一个被认为是可以的 Sora 对决的是 PixVerse，来自爱诗科技，最新发布于五月。「魔术笔刷」功能性，能更准确地控制局部动态。

官方演示PixVerse 图片来自：PixVerse

即梦的本名是 Dreamina，背靠字节，在字节重码下注人工智能的前提下，即梦的表现也相当不错，尤其是影子和画面色彩，更加丰富。得益于字节的社会基因，社区的共享氛围活跃起来。

在车厢里回头看的年轻女子图片来源：即梦客户@瓷瓷

从视频拍摄的角度来看，情景转换是比人物正反打、渲染气氛的空镜头更关键的环节——它可以代表故事情节的转折点，也可以代表人物状态的变化。

Gen-3 过渡设计和镜头运动的提高代表了具有一定创意能力的用户。在这样一个关键的创意节点上，图像浏览可以借助文化视频工具生成。在这个关键位置上，花点积分，制定几个浏览方案，有助于提高下游制作步骤的准确性和效率。

Runway 官方演示图片来自：Runway

文化视频的内卷只会越来越激烈，没有人会怀疑接下来生成的图像会更高清、更流畅、更细腻，这只是时间问题。但是，当你进入下一阶段，你会面临更严格的眼光，这将是所有生成工具都需要面对的问题。

本文来自微信微信官方账号“APPSO”（ID:appsolution），作者：Selina，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

餐饮业主究竟在悲观什么？

16万套餐，被称为母婴“爱马仕”，腾讯投资的这个“子曰中心”将上市。

涨价不到半年，LV又涨价了。

葡萄酒新世界的野心

2024年自动驾驶行业调查报告：“端到端”渐行渐近