大厂沉默，创业公司乱斗，文生视频产品超过10款，国产Sora谁最有希望？

2024-05-06

就像2023年ChatGPT带来的震撼一样，2024年的AI圈，到处都是Sora的故事。

近来，声称R&D比Sora早。「Vidu」文生视频大模型亮相，这是清华大学中长期、高一致性、高动态视频大模型，由学生数学科技联合发布。

舆论立刻非常热烈，因为从公布的案例视频效果来看，Vidu已经可以支持超清视频内容，一键生成16秒，分辨率1080P。Vidu不仅可以模拟真实的物理世界，还具有多镜头、时空一致性等想象力的特点。如果这个特征可以在第一次测试中呈现出来，那无疑已经和Sora相媲美了。

实际上，Vidu并不是第一个被称为国产Sora产品，也不是北京大学的Open。 Sora、Dreaminam、VideoCrafter22、Vega，右脑技术 AI、PixVerser爱诗科技、艺术AIMewXAI、未来的Pixeling，NeverEnds和Morph Studio，此外，昆仑万维、万兴科技公司推出了10多款文生视频产品的视觉大模型。

大部分都是靠算法图片转视频，真正的文生视频大模型为底座的屈指可数。

为什么Sora成为AI圈明珠？

为什么Sora在国内AI领域再次重现了百模对决的盛况？

Sora可能源于一个共识，它具有跨时代的意义。这是LLMM大语言模型的结合。(ChatGPT、Claude和文心一言)和图形模型diffusion(midjourney、Stable diffusion)，可以完美理解文字，然后根据文字生成图片到视频。

本图对Sora的原理进行了深入分析，左脑负责语言/逻辑/记忆，LLM大语言模型复制了这种模式，右脑负责形象/创意/艺术，Unconditional Diffusion扩散模型更擅长这一点。结合这两个模型，从文生视频中诞生了大模型Sora。

因此，可以说，Sora代表了真正的仿人脑智能，而其他模型只是模仿了一部分。通过这个原则，我们可以识别许多伪Sora。

比如美图公司的文生视频产品Whee，制作出来的图片简单动一下，不到3秒，大概用过了。SDXLXLStableDiffusion模型，与Diffusion和Transformer相结合的架构U-ViT。前一种视频很难制作超过10秒的视频，文字理解能力也不会很好，模型决定了天花板。

所以Vidu之所以迅速走红，是因为它的核心技术U-ViT架构。该技术于2022年9月提出，它是世界上第一个将Diffusion与Transformer结合起来的结构。

这一结构的高增长，代表了Sora在两到三年内制作AI短剧/电影/广告宣传片等，将在数小时内完成，

Sora已经验证了这种可能性。Shyy，新媒体公司 Kids 团队只用 3 人类团队，使用Sora在大约 1.5 到 2 周内设计了《Air Head》。Patrick 感觉现阶段的Sora对画面的连续性和镜头运动的认知还是有一些问题的；而且这部电影是720P，也是用AE特效软件编辑的。

但3 到 20 秒，渲染时间在 10 到 20 在几分钟内，效率大大提高。科幻电影《阿凡达》花了8年时间，从拍摄到制作，一两个月就可以实现，内容制作成本降低了几万。

阿里云创始人王坚说，中国工程院教授只说可能会影响短视频等行业，所以我认为这是对它的极大侮辱，它的意义远远超过这种东西。就像核弹刚爆炸的时候，没有人能想到这个东西以后可以作为核电厂发电，可以实现微型化，还有很多其他用途。

Sora当然还处于婴儿期。Sora的核心创始人timi在最近的一次采访中表示：“我认为Sora的发展就像一个新的视觉模型GPT-1。我们对Sora的前景持乐观态度，认为它将取代人类的某些能力。从长远来看，我们认为Sora将有一天超越人类的智慧，成为世界模型的代表。”Sora的核心创始人timi在最近的一次采访中表示。

清华北大创业公司使Sora努力

现在国内Sora创业大潮中，学术机构创业公司搭配性能，更亮眼。

2023年3月，清华这支Vidu团队开源了世界上第一个基于组合的大模型。UniDiffuser，第一个验证了大规模练习和扩展的规律。但由于计算成本高，团队一时的主要精力转向了文生图和文生3D领域。今年1月，团队可以形成4秒视频，实现Pika、Runway的效果。

转折点是2024年2月，Sora的发布震惊了圈内圈外人士。团队回到文学时代评论领域，第一时间紧急启动攻关，并向海淀区领导汇报，当时得到了很多支持。

在接下来的两个月里，从1月的4秒到3月底的8秒，Vidu在4月底展示了16秒的结果，直接超越了国内大部分Sora模型，达到了Sora的同等水平。

Vidu案例视频

相对于Vidu的突然爆红，北大的爆红Open Sora从出生开始，锣鼓就诞生了。

Open-Sora 由北京大学-兔展AIGC联合实验室联合发起的Plan，目前已推出 1.0 同时，版本模型发布了一个名为MagicTime的项目，从Time开始。-lapse 在视频中学习真实世界的物理知识。

这支初始团队共有13人:北京大学信息工程学院助理教授、袁粒博士生导师、北京大学计算机学院教授、田永鸿博士生导师等。，兔展公司是合作创业公司。

由于资源不足，团队选择开源生态共创，AnimateDiff大神也参与其中。

当前我国视频生成领域，爱诗科技是知名产品。PixVerse，该公司刚刚完成了A2轮融资，上个月宣布完成了A1轮融资。核心创始人离开字节跳动创业，主要解决了视频镜头控制与一致性的问题。许多实际测量结果超过了Pika和runway等竞争对手。

PixVerse的重点发力方向似乎不是多模态大模型，计算能力的需求也不如Sora高。因此，现在看来，在国内实际应用中，PixVerse用户已经在88天内生成了超过1000万个视频。

还有一家公司值得一提。4月28日，万兴公司发布了“天慕”音视频模型，声称依托15亿用户行为数据和100亿本土音视频数据，可以通过文字视频能力，实现不同风格、丰富场景、主题的衔接。第一次支持一键生成时间60秒 。在60秒内创造了国内文生视频时长的记录。

毕竟，从OpenAI不到100人，Midjourney的11人创业团队来看，团队规模并不是AI创业成功的关键，核心是首席科学家的团队冲锋能力。那就是为什么国内Sora创业公司会突然出现的核心原因。

当然，计算资源仍然是一个很大的门槛。根据Vidu朱军的说法，“在训练UniDiffuser的第一个版本时，使用的计算率是去年年中训练同一模型的近40倍，团队在半年内将计算能力的需求减少40倍。”这也是其重要的技术突破。

大厂不掀文生视频门帘。

在轰轰烈烈的AGI创业浪潮中，BAT是2023年的大型创业明星。但是在Sora的浪潮中，百度、阿里、腾讯、字节等大公司看起来有点安静，有些风头被创业公司抢走了。

作为All in AGI动作最快的百度，发布了一款名为“百度”“UniVG”视频生成模型。用户只需提供一张图片或一段文字，就可以生成一个流畅的视频。虽然UniVG生成的每一帧图片都比早期的AI视频生成工具更稳定、更连贯，但实际上这个模型更注重算法，而不是Sora的多模态大模型路线。

百度创始人、董事长兼首席执行官李彦宏在2023年Q4及全年业绩会上表示，多模式或多模式的结合，如从文字到视频，实际上是未来基础模式开发的一个非常重要的方向，这是AGI的必要方向。百度已经投资了这些领域，未来还会继续投资。

在这方面，字节动作相对稳定。早在年初，字节跳动就发布了超高清文生视频模型。MagicVideo-V2。据悉，该模型在超清度、润化度、连接性、文本语义恢复等方面的输出视频比目前主流的文生视频模型要好。Gen-2、Stable Video Diffusion、Pika1.0等更出色。

字节文生视频产品是Dreammina，现在文生视频已经处于内部测试阶段，这也是大厂唯一发布的Sora产品。AI鲸选社社区里的朋友田际云对此进行了内测：

附评价：1、Dreamina提示“一位工程师，坐在办公桌前敲代码”，还不错；2、对于汉字的理解非常不足，认为“写”就是在笔记本上写，实际上是在计算机上输入输出。3、Dreamina这几天使用的总结:当代元素和人物的形成比古代元素和人物更准确，海外元素的形成比国内元素要好得多。底层模型很明显。

而阿里云旗下的魔搭社区（Model-Scope）在线文本生成视频模型。目前由三个子网络组成:文本特征提取、文本特征到视频隐藏空间扩散模型、视频隐藏空间到视频视觉空间，整体模型参数约17亿。

目前，阿里最热门的视频模型应该是最近刚刚在通义上线的。EMO，这种AI商品让照片说话唱歌，属于算法定义的商品，目前已在通义APP上使用。

腾讯推出的视频模型是Mira，当前模型可生成分辨率为128x80长达 20 秒视频和分辨率为384x240长达 10 秒视频。并且提供了数据标记和模型训练工具。

所以目前大厂有一些基本的视频模型，但是真正的对比Sora模型还没有公布。这也是一个奇怪的地方。大工厂不缺人才、计算率和资金。在可以露脸的文化视频领域，动作相对缓慢，让创业公司露脸。

自然，大厂也并非完全没有动作，投资也是参与的一种方式。

由于2023年3月，Vidu背后的生数技术正式成立，RealAI瑞莱智慧、蚂蚁和百度风险投资联合孵化。2023年6月，公司完成天使轮融资近亿元，由蚂蚁集团领先。BV百度风险投资和卓源资本跟进，投资后估值达到1亿美元。天使轮，锦秋基金独家投资该公司，其前身是字节战投部门。

现在看来，国内Sora的竞争刚刚吹响号角，有些成绩还不算领先。

本文来自微信公众号“AI鲸选社”（ID:aijingxuanshe），作者：鲸哥，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

最新调查：“雪球不能添加”：衍生品业务加强全面管理，不限于雪球。

a股震荡收跌：创业板指跌1.55% 旅游、房地产等板块跌幅居前。

在重大历史时刻，香港金融突传大消息

资本高手周亚辉，能守住500亿吗？

中国人，不要再跟风买车了

大厂沉默，创业公司乱斗，文生视频产品超过10款，国产Sora谁最有希望？

为什么Sora成为AI圈明珠？

清华北大 创业公司使Sora努力

大厂不掀文生视频门帘。

延伸阅读

清华北大创业公司使Sora努力