Sora再一次“期货式”发布，国产大模型早就抢走了，哪一个最好？

2024-12-12

Sora来了，但是没有完全来。在12天持续发布会的第三天，OpenAI正式向公众发布了一个AI视频模型Sora。 Turbo，最大支持生成20秒视频，仅为Sora首次发布时宣传时间的三分之一。更加离谱的是，并非任何顾客都能立即体验到Sora。 Turbo，这个应用还处于小范围的测试阶段。

在Sora之前，一些海外AI公司已经开发了视频模型，但直到今年2月Sora首次亮相，视频模型行业才真正进入黄金发展时期。然而，推动视频模型快速发展的Sora似乎落后了。

更不用说我们可能不熟悉的海外了。仅在中国市场，就出现了不少于20个AI视频模型，比如腾讯、阿里巴巴、字节跳动等。互联网巨头，而且每个家庭都推出了AI视频模型。从行业角度来看，AI视频模型赋予了理解和重构真实世界的能力。从用户的角度来看，AI视频模型给了我们无限可能发挥想象力。

与泛用场景的大语言模型不同，大视频模型的应用场景相对更专业，所以现阶段生成视频基本上是需要付费的。免费客户只能收到系统的积分或者每天赠送的频率来生成视频，可能感觉不到一些高级功能。就这样，不关注AI模型的朋友可能不知道国内有哪些大型视频模型。

接下来，小雷将盘点中国目前知名的六款AI模型，分析其功能特点。也许他们将来会成为你把想法和灵感转化为现实的工具。

Sora成了Follower，国产视频大模型抢跑？

国内的视频模型很多，功能和体验也有很大的不同。经过几个月的改进，大部分都可以识别人类的自然语言，而不是依靠限定词来生成内容。这是视频模型的一小步，但却是互联网行业的一大步。只有了解自然语言，我们才能有能力将我们的想法或小说中的内容转化为图像。

如何选择视频大模型，不用担心，跟着小雷一起看看互联网巨头们的视频大模型表现如何，或许你心里就会有答案。

1、可灵：行业先行者，感觉很好。

训练视频模型需要大量的影视资源，视频平台有着与生俱来的优势。Sora发布后仅仅4个月，AI团队就推出了大型视频模型，现在已经演变成了1.5版本。就小雷的感受而言，可灵在国内众多视频模型中排名前三。

可灵支持两种模式：文生视频和图片生成视频(或添加文字说明)，并能调整创意想象与创意的联系。可灵1.5模型免费用户使用文字视频功能，最高可生成5秒高质量视频(1.5版本不支持生成标准质量视频，1.0版本可生成10秒标准质量视频)。使用图片视频功能，可生成标准质量最高10秒或高质量视频5秒，支持镜头运输调整。

小雷生成了一段描述语“宁静的沙滩，满月高高地挂在天空，微风吹着海边的椰子树，传来哗啦啦的声音，一只小猫懒洋洋地躺在沙滩上，舔着前腿上的头发”的视频。具体结果如下:无论是舔头发还是风吹椰子树，细节丰富程度都很高。唯一明显的漏洞可能是产生的结果是白天，而不是小雷描述的夜晚。

可灵作为我国第一批AI视频大模型，表现极佳，提供了丰富的功能选项。希望灵魂能尽快推出生成视频更长的版本，满足微剧的需求，帮助微剧作者创作视频，降低微剧的制作成本，从而提升灵魂的实用价值。

2、即梦：语言分析能力强，可惜缺乏灵动性。

快手推出可灵后，抖音不甘落后，还推出了视频大模型即梦。

除了文生视频和图生视频，即梦还增加了对口功能，即导入图片和视频后，上传文字或音频，即梦可以调整视频。即梦发布日期较晚，但更新迭代速度极快。到目前为止，官网已经提供了1.2视频。、视频2.0、视频2.0 可以使用三个版本的Pro。

需要注意的是，注册这个大模型需要4/6/8的积分，视频1.2大模型需要4/6/8的积分。视频2.0模型需要5分才能生成5秒视频，视频需要2.0。生成Pro模型视频需要20分。

用同样的描述语言，小雷使用了即梦视频2.0 Pro模型生成了一个质量相当不错的视频，小雷描述的场景基本都展现出来了。但是这个视频并不完美，比如猫咪的动作太单调僵硬，缺乏灵活性，叶子不随风移动。

即梦对自然语言的理解能力在小雷看来高于灵魂，描述语言中的元素基本都有，但产生的视频质量略逊于灵魂。

3、混合元：功能需要丰富，发展空间大。

谈完快手和Tiktok两大短视频巨头，腾讯自然不能落后。腾讯最近推出了混合元视频模型，并在腾讯元宝App和网页上线。

目前腾讯混合元视频模型只支持文化视频，每天可免费生成4个标准质量和2个高质量视频。小雷还用腾讯混合元模型生成了一个视频。太大的月亮造成了虚假的感觉，猫舔头发的动作充满了不服从。椰子树距离太远，细节不够丰富。

或许是因为诞生时间太短，腾讯混元大模型产生的视频质量不佳，显然不如可灵和即梦。然而，以国内互联网巨头腾讯为后盾，相信经过几次迭代升级，这款大模型产生的视频质量堪比可灵和即梦。

4、Vidu：功能丰富，运镜自然。

Vidu作为北京数学技术与清华联合开发的AI视频模型，可能没有腾讯和字节跳动那么强大，但大模型的表现并没有让步。该模型还推出了1.5版本，支持文学视频和图片视频，并支持从不同角度上传同一主体的照片，从而生成更真实的三维图像。需要注意的是，这种大模式的免费客户只能生成720P视频。

在实际测量中，Vidu产生的视频质量高于可灵和即梦，运镜的自然流畅性强于可灵。细节也很丰富，呈现了海水、椰子树、风等元素。如果你仔细看，你会发现远处有一个身影。唯一的漏洞是海滩缺乏质感。一般只有刚刚落潮的海滩才会有类似的情况。

Vidu的表现已经相当不错了。开放API，探索商业模式后，可以获得大量投资的概率很大。Vidu可以通过这次投资购买芯片和影视资源。Vidu只有拥有足够的影视资源来训练大模型和计算率支持，才能加速前进。

5、清影：同具清华血脉，与Vidu有差距。

前身为清华大学计算机系知识工程研究室团队的智谱清言，与Vidu算得上是同门，甚至更加正统。

智谱清言开发的AI视频大模型清影功能极其丰富，支持文生视频和图生视频，其中文生视频可以调节视频风格、情感氛围、镜像运输方式等数据，而图生视频最高支持16秒4K。 60帧视频生成，是小雷体验过的大型视频模型，最长的视频生成。

然而，清影产生的视频让小雷失望了，所以我就不说别的了。我的猫呢？？？而且图片几乎看不出来。这是一个视频。小雷几乎认为我生产的是图片。

与同门的Vidu相比，清影的问题非常明显，对自然语言的理解可能存在一些问题，需要进一步提高。

6、PixVerse：画面美丽，动作却十分僵硬。

国内普通网友可能对爱诗科技并不熟悉，但其创始人王长虎曾担任微软亚洲研究院主管研究员，随后跳槽到字节跳动，先后担任人工智能技术总监、视觉技术负责人等职务，主导字节跳动视觉模型的基础设施建设。

爱诗科技的视频模型PixVerse功能同样丰富，支持特效、风格、比例等元素的设置和优化，还可以预设角色，最长可以生成8秒的视频。但是注册分数只有90分，每天再给30分。生成5秒视频需要30分，8秒视频需要60分。

从视频来看，PixVerse的特点和它的名字一样漂亮，画面色调非常讨喜小猫的头发细节和背后水面的波纹。

就像即梦一样，PixVerse生成视频的问题也出在猫身上，小猫的动作过于刻意，反而显得僵硬。瑕疵不掩瑜，PixVerse的表现十分出色，让我们看到了爱诗科技的实力。

视频模型对决，细节决定成败

几个月来，国内AI公司在视频模型领域迈出了从零开始的关键一步，现在正在从零开始走向强势。就小雷的感受而言，它是灵性的，也是梦想的。Vidu、PixVerse都表现出色，并排排名第一，腾讯混元视频模型排名第二，清影排名第三。

由于使用场景、风格要求等细节的不同，大型视频模型的输出结果可能会有一些差异，小雷的感受无法展现这些大型视频模型的全部实力。

即使是性能好的大模型，细节上也有一些漏洞。除了上面频繁提到的猫咪动作僵硬的问题，还有一个非常明显和常见的情况，那就是沙滩上的沙子不会因为猫咪的动作而流动。虽然AI视频大模型不断升级迭代，也取得了丰硕的成果，但是在细节上还有很大的进步空间。

AI视频模型的升级侧重于三个方面:自然语言分析能力、画面细节抛光、镜面运输和时间。这三个核心因素也决定了AI视频模型未来能取得的成就。只有了解人类的自然语言，每个人才能真正利用AI视频模型释放自己的想象力。画面和镜子的升级可以提高视频质量。在时间充足的前提下，AI视频模型可以成为用户手中创作微短视频的助手。

此外，虽然收费方案广泛应用于大型AI视频模型，但价格过于昂贵，以至于付费用户有限。此外，培训成本和推理成本高，大多数大型AI视频模型公司的情况并不乐观。专注于视频生成领域的AI企业，要么与B端客户合作，为定制场景打造专属版本，要么加快升级迭代，满足C端用户的需求，寻找盈利点。

近日，亚马逊云科技、谷歌、OpenAI等公司相继发布了AI视频模型。预计明年会有更多的AI公司推出视频模型，整个行业的竞争会越来越激烈。这些已经领先的公司应该尽快利用自己的优势创造利润点，防止在更卷的环境中被淘汰。

本文来自微信微信官方账号“雷科技”，作者：雷科技，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

经销商“反戈”华为，BBA坚守最后的“防线”

到广州新华书店走来走去，发现这里正被AI教育硬件包围着。

十个月后，“刮出”5000亿

这场F1比赛在上海结束，所有的司机都是中国人。

微信游戏畅销榜12月第一周TOP100：前十太稳辣

项目推荐

康小虎 · 健康小屋

毛加健康

康老板 · 氧疗堂