Sora之后,视频生成模型中国牌局
Sora,自2月16日OpenAI发布以来,一直被吐槽为“技术期货”,最终在12月10日正式版Sora出现,最高可生成。 1080p 分辨率,最长 20 秒的视频。

OpenAI 奥特曼CEO表示,正式版本的Sora是GPT-1时刻的视频生成领域。
然而,国内的AI公司并没有在视频生成领域与OpenAI同步,而是表现出更加复杂的态度,就像跟进GPT阶段一样。
有些人选择跟进。比如Sora问世后,阿里、字节跳动、快手、腾讯等互联网公司,智谱AI等AI公司。、MiniMax、爱诗科技、生数科技等,都陆续发布了视频生成模型,很多都表示已经达到或超越了预览版Sora。
有些人选择不跟进,包括互联网公司的百度。李彦宏曾明确表示,“无论Sora有多受欢迎,百度都不会这样做。”。像百川智能这样的AI企业也明确表示不会做Sora模型。虽然月亮的暗面、商汤科技、零一万物都有文化视频模型,但都不是重点。
视频生成跑道不再延续GPT时代的发展模式,即OpenAI打出王牌,国内科技企业争相跟进。Sora之后,国内的AI游戏开始有了自己的节奏,呈现出更加复杂的局面。
在技术路线和商业前景的判断上,有实力做一般基础大模型的国内科技公司开始出现严重的差异。我们将从国内公司跟进Sora的选择,谈谈视频生成的中国品牌游戏。
国内To玩家:与0r不和S0ra, 那是个问题
第一,我们要明确一点,与Sora模型技术公司相比,国内到底在做什么?
简而言之,Diffusionsion是Sora视频生成模型的关键技术路线。 通过文本(自然语言)结合Transformer、图片、视频作为prompts的提示词进行视频生成。

与Sora模型相比,至少有几个特点:
实用性,不针对某一类风格、行业、角色等,可以生成任意内容的视频。
质量高,画质精度高(达1080p)、视频时间长(最长一分钟)、图片具有很强的一致性(理解物理规律)。
在Sora面前,国内科技企业并不像ChatGPT推出时那样毫无准备。但是究竟与Or不和,却不像ChatGPT那样高度一致,而是分为三类:
第一类,明确跟进。
在互联网公司阵营中,以视频为核心业务的字节跳动、Aautora等。,以及数字基础设施完善、技术人才资源丰富、内部有视频产品基因的综合科技公司腾讯,几乎第一时间选择了跟进。字节跳动推出了即梦Dreamnia,Aautora也推出了可灵模型。腾讯以混合元模型为核心,发布并开放了混合元模式的多模式生成模式,被称为腾讯版Sora。

在大型创业公司中,智谱AI的行动最为敏捷。今年7月,AI视频生成工具阴影发布,支持用户生成10秒和4K。、60帧视频。10月份MiniMax的海螺AI还增强了视频生成能力,支持文本提示生成6秒视频短片。

二是坚决不和。
与第一类公司的态度完全不同,互联网公司和大型企业也坚决拒绝与Sora相处。比如Sora问世后,百川智能王小川表示,团队中有人提出要做Sora,但他明确表示不会跟进这个方向。
百度李彦宏也有同样的想法。虽然百度在视频生成领域取得了一定的成绩,但他坚决不做Sora,因为Sora的商业化估计需要五年甚至十年。目前百度更注重语言模型和多模式模型,没有Sora的实用尝试。
第3类,浅尝辄止。
此外,还有很多国内公司出于FOMO“害怕错过”的心理布局Sora,但并不专注于投资,处于品尝的状态。

比如阿里系里的阿里妈妈团队发布了tomoVideo,试水电商营销的视频生成场景;在“大模型六虎”中,月亮的暗面也推出了视频生成模式,但仍然专注于kimi产品;零一万物进入B端业务,视频生成模式面向的影视制作行业正处于转型期,Sora产品很难成为核心增长点。
综上所述,如果说全球大模式是“斗地主”,那么游戏规则就不再是OpenAI的王者轰炸,国内科技公司纷纷跟上,而是根据自己的排名、业务重要性和优先级来决定Sora的打牌策略。
为什么到了Sora,大模型行业的游戏规则会发生变化?
视频生成,迷雾中的游戏
国内科技企业的表现表明,对Sora有非共识,整体还处于混乱和模糊规则的阶段。在雾蒙蒙的行业,游戏规则自然只能自己探索。
现在视频生成领域的现状,弥漫着三重迷雾。
技术迷雾:OpenAl认为Sora是一种有前途的方式,可以通向世界模拟器和AGl。目前,这条技术路线存在许多争议。
比如李飞飞、lecun等人认为Sora无法实现AGI。根据李飞飞的说法,Sora仍然是一个二维图像,只有三维空间智能才能实现AGI。Sora预览版展示的“日本女性走过霓虹灯,在东京街头闪烁”的视频,无法将相机放在女性身后,说明Sora并没有真正了解3D世界。学者Lecun也点名不看好Sora,说它根本就不是真正的世界模型,而且仍然面临着GPT4的巨大瓶颈。

的确,即使是官方版本的Sora,手部细节不准确,动态过程中的一致性等问题,仍然存在。
国内公司之所以坚决不跟进Sora,是因为他们对这条技术路线有所保留。比如百川智能王小川认为Sora只是阶段性产品,技术水平、突破性、实用价值都不如GPT。总之,实现AGI、开放的模拟物理世界的技术路线决定了Sora不是唯一的解决方案。
商业迷雾:视频生成模型商业前景、投资回报比例,短期内不明朗,成为国内企业劝退的另一大障碍。

Sora的预览版和官方版本,都延续了OpenAI的“暴力美学”,OpenAI 研究科学家 Noam Brown 表示,Sora是scale力量最直观的展示,即试图通过堆叠计算率、数据和参数来展示理解物理世界的能力。该方法成本高,资源投入大。是否跟进Sora,取决于每个家庭对模型的商业期望和投资回报。
如果视频生成模型向ToB收费,基础模型厂商需要投入大量人力优化业务流程,开发交互页面,而影视行业正处于调整周期,AI影视制作业务的增长有限。这无形中增加了AI公司的机会成本。由于人力、物力、计算率的相同,AI投资于金融。、教育AI、在大型市企等领域,显然取得了更大的成效。所以,百度、零一万物等公司,都把视频生成领域作为边缘业务,不重点投资。

在Tora场景中,一方面个人支付意愿不高,视频生成不是大众日常使用的高频场景,生成成本和订阅成本普遍高于文本模型。此外,Sora模型无法处理幻觉和一致性问题,可能无法创造实际价值,因此C端支付规模非常有限。另外,模型完全免费,将视频生成模型商品作为企业的流量入口,这种商业模式只适用于以视频为核心业务的企业。
比如Aautorapper和字节跳动本身就有核心的视频业务,可以快速实现模型的规模化。对于C端用户或B端生产力工具,这类企业可以快速整合整合视频生成能力和现有产品,模型研发的边际成本会随着规模的商业化而降低。
总的来说,对于国内大多数基础模厂来说,视频生成领域都是一项相对边缘、投资回报低的业务。
三是市场格局的竞争迷雾,即第三重迷雾。
虽然现在视频生成模型的商业前景不明朗,但未来有没有可能爆发,公司悄悄投入,然后让大家大吃一惊?恐怕模型很难发生这种下注边跑道“捡大漏”的商业神话。
目前,大型模型的实用性和商业化前景普遍模糊,通用模型制造商必须尽快从许多不确定的产品中选择更高的成功概率和更大的市场前景,并专注于投资。然而,在所有产品中,视频生成模型是一个特别沉重和具有挑战性的项目。在这种情况下,我们必须优先考虑成功率更高的产品,减少视频生成模型业务。

从另一个角度来看,即使公司优先考虑视频生成模型,也很难建立竞争优势。由于目前大模型的市场竞争状况与GPT阶段不同,基础训练设施、核心结构模式和技术实力都有一定的积累。事实上,复制Sora并推出Sora应用程序的技术壁垒并不像ChatGPT阶段那么难。这也意味着,即使公司首先发布了视频生成模型,也未必能长期保持竞争优势和市场垄断,这也削弱了Sora的商业想象空间。
技术迷雾、商业迷雾、竞争迷雾依然笼罩在视频生成领域,导致Sora对游戏的不确定性和可能性过多。目前,我们都说得太早了,哪种理解是对的,哪种路线是最终的赢家。每个家庭只能按照自己的游戏规则玩。
Must Go 0n,The 轻装上阵的Show
大型技术必须继续发展,但是从Sora开始,国内科技企业不再紧跟OpenAI,开始有自己的节奏。
主要表现在,国内公司对Sora等一鸣惊人的新事物有自己的理解和思考,开始定义自己的玩法,跟进Sora展示自己的实力,而不是跟进Sora展示自己的心态和战略决心。
另外,OpenAI的叙事能力还是值得学习的,不仅仅是跟进商品。

OpenAI对于资本密集型AI公司来说是一项非常重要的能力,无论是在2月份用Sora夺走谷歌风头,还是最近Sora正式上线,OpenAI总能一次又一次地推动节奏,设置问题,吸引眼球。
Sora不能跟进,但核心技术不能遗漏。
以百度为例。虽然Sora产品的计划没有推出,但核心技术本身并没有缺席。比如多模态可控生图技术的自主研发,可以在保证实体特征不变的前提下实现图像的高泛化生成,可控性的提升恰恰是下一阶段视频生成核心的核心。另外,百度也没有完全忽视视频生成领域,目前投资了视频生成初创企业生数技术、AI视频短剧企业井英科技等。

聚焦主跑道,根据自身核心业务、商业优先级等多种因素,决定追逐Sora的优先级。国内公司正在寻找自己的大模型游戏节奏。
本文来自微信微信官方账号 “脑极体”(ID:作者:藏狐,36氪经授权发布,unity007)。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




