大厂沉默,创业公司乱斗,文生视频产品超过10款,国产Sora谁最有希望?

2024-05-06


就像2023年ChatGPT带来的震撼一样,2024年的AI圈,到处都是Sora的故事。


近来,声称R&D比Sora早。「Vidu」文生视频大模型亮相,这是清华大学中长期、高一致性、高动态视频大模型,由学生数学科技联合发布。


舆论立刻非常热烈,因为从公布的案例视频效果来看,Vidu已经可以支持超清视频内容,一键生成16秒,分辨率1080P。Vidu不仅可以模拟真实的物理世界,还具有多镜头、时空一致性等想象力的特点。如果这个特征可以在第一次测试中呈现出来,那无疑已经和Sora相媲美了。


实际上,Vidu并不是第一个被称为国产Sora产品,也不是北京大学的Open。 Sora、Dreaminam、VideoCrafter22、Vega,右脑技术 AI、PixVerser爱诗科技、艺术AIMewXAI、未来的Pixeling,NeverEnds和Morph Studio,此外,昆仑万维、万兴科技公司推出了10多款文生视频产品的视觉大模型。


大部分都是靠算法图片转视频,真正的文生视频大模型为底座的屈指可数。


为什么Sora成为AI圈明珠?


为什么Sora在国内AI领域再次重现了百模对决的盛况?


Sora可能源于一个共识,它具有跨时代的意义。这是LLMM大语言模型的结合。(ChatGPT、Claude和文心一言)和图形模型diffusion(midjourney、Stable diffusion),可以完美理解文字,然后根据文字生成图片到视频。


本图对Sora的原理进行了深入分析,左脑负责语言/逻辑/记忆,LLM大语言模型复制了这种模式,右脑负责形象/创意/艺术,Unconditional Diffusion扩散模型更擅长这一点。结合这两个模型,从文生视频中诞生了大模型Sora。



因此,可以说,Sora代表了真正的仿人脑智能,而其他模型只是模仿了一部分。通过这个原则,我们可以识别许多伪Sora。


比如美图公司的文生视频产品Whee,制作出来的图片简单动一下,不到3秒,大概用过了。SDXLXLStableDiffusion模型,与Diffusion和Transformer相结合的架构U-ViT。前一种视频很难制作超过10秒的视频,文字理解能力也不会很好,模型决定了天花板。


所以Vidu之所以迅速走红,是因为它的核心技术U-ViT架构。该技术于2022年9月提出,它是世界上第一个将Diffusion与Transformer结合起来的结构。


这一结构的高增长,代表了Sora在两到三年内制作AI短剧/电影/广告宣传片等,将在数小时内完成,


Sora已经验证了这种可能性。Shyy,新媒体公司 Kids 团队只用 3 人类团队,使用Sora在大约 1.5 到 2 周内设计了《Air Head》。Patrick 感觉现阶段的Sora对画面的连续性和镜头运动的认知还是有一些问题的;而且这部电影是720P,也是用AE特效软件编辑的。


但3 到 20 秒,渲染时间在 10 到 20 在几分钟内,效率大大提高。科幻电影《阿凡达》花了8年时间,从拍摄到制作,一两个月就可以实现,内容制作成本降低了几万。


阿里云创始人王坚说,中国工程院教授只说可能会影响短视频等行业,所以我认为这是对它的极大侮辱,它的意义远远超过这种东西。就像核弹刚爆炸的时候,没有人能想到这个东西以后可以作为核电厂发电,可以实现微型化,还有很多其他用途。


Sora当然还处于婴儿期。Sora的核心创始人timi在最近的一次采访中表示:“我认为Sora的发展就像一个新的视觉模型GPT-1。我们对Sora的前景持乐观态度,认为它将取代人类的某些能力。从长远来看,我们认为Sora将有一天超越人类的智慧,成为世界模型的代表。”Sora的核心创始人timi在最近的一次采访中表示。


清华北大 创业公司使Sora努力


现在国内Sora创业大潮中,学术机构 创业公司搭配性能,更亮眼。


2023年3月,清华这支Vidu团队开源了世界上第一个基于组合的大模型。UniDiffuser,第一个验证了大规模练习和扩展的规律。但由于计算成本高,团队一时的主要精力转向了文生图和文生3D领域。今年1月,团队可以形成4秒视频,实现Pika、Runway的效果。


转折点是2024年2月,Sora的发布震惊了圈内圈外人士。团队回到文学时代评论领域,第一时间紧急启动攻关,并向海淀区领导汇报,当时得到了很多支持。


在接下来的两个月里,从1月的4秒到3月底的8秒,Vidu在4月底展示了16秒的结果,直接超越了国内大部分Sora模型,达到了Sora的同等水平。


Vidu案例视频


相对于Vidu的突然爆红,北大的爆红Open Sora从出生开始,锣鼓就诞生了。


Open-Sora 由北京大学-兔展AIGC联合实验室联合发起的Plan,目前已推出 1.0 同时,版本模型发布了一个名为MagicTime的项目,从Time开始。-lapse 在视频中学习真实世界的物理知识。


这支初始团队共有13人:北京大学信息工程学院助理教授、袁粒博士生导师、北京大学计算机学院教授、田永鸿博士生导师等。 ,兔展公司是合作创业公司。


由于资源不足,团队选择开源生态共创,AnimateDiff大神也参与其中。


当前我国视频生成领域,爱诗科技是知名产品。PixVerse,该公司刚刚完成了A2轮融资,上个月宣布完成了A1轮融资。核心创始人离开字节跳动创业,主要解决了视频镜头控制与一致性的问题。许多实际测量结果超过了Pika和runway等竞争对手。


PixVerse的重点发力方向似乎不是多模态大模型,计算能力的需求也不如Sora高。因此,现在看来,在国内实际应用中,PixVerse用户已经在88天内生成了超过1000万个视频。


还有一家公司值得一提。4月28日,万兴公司发布了“天慕”音视频模型,声称依托15亿用户行为数据和100亿本土音视频数据,可以通过文字视频能力,实现不同风格、丰富场景、主题的衔接。第一次支持一键生成时间60秒 。在60秒内创造了国内文生视频时长的记录。


毕竟,从OpenAI不到100人,Midjourney的11人创业团队来看,团队规模并不是AI创业成功的关键,核心是首席科学家的团队冲锋能力。那就是为什么国内Sora创业公司会突然出现的核心原因。


当然,计算资源仍然是一个很大的门槛。根据Vidu朱军的说法,“在训练UniDiffuser的第一个版本时,使用的计算率是去年年中训练同一模型的近40倍,团队在半年内将计算能力的需求减少40倍。”这也是其重要的技术突破。


大厂不掀文生视频门帘。


在轰轰烈烈的AGI创业浪潮中,BAT是2023年的大型创业明星。但是在Sora的浪潮中,百度、阿里、腾讯、字节等大公司看起来有点安静,有些风头被创业公司抢走了。


作为All in AGI动作最快的百度,发布了一款名为“百度”“UniVG”视频生成模型。用户只需提供一张图片或一段文字,就可以生成一个流畅的视频。虽然UniVG生成的每一帧图片都比早期的AI视频生成工具更稳定、更连贯,但实际上这个模型更注重算法,而不是Sora的多模态大模型路线。


百度创始人、董事长兼首席执行官李彦宏在2023年Q4及全年业绩会上表示,多模式或多模式的结合,如从文字到视频,实际上是未来基础模式开发的一个非常重要的方向,这是AGI的必要方向。百度已经投资了这些领域,未来还会继续投资。


在这方面,字节动作相对稳定。早在年初,字节跳动就发布了超高清文生视频模型。MagicVideo-V2。据悉,该模型在超清度、润化度、连接性、文本语义恢复等方面的输出视频比目前主流的文生视频模型要好。Gen-2、Stable Video Diffusion、Pika1.0等更出色。


字节文生视频产品是Dreammina,现在文生视频已经处于内部测试阶段,这也是大厂唯一发布的Sora产品。AI鲸选社 社区里的朋友田际云对此进行了内测:


附评价:1、Dreamina提示“一位工程师,坐在办公桌前敲代码”,还不错;2、对于汉字的理解非常不足,认为“写”就是在笔记本上写,实际上是在计算机上输入输出。3、Dreamina这几天使用的总结:当代元素和人物的形成比古代元素和人物更准确,海外元素的形成比国内元素要好得多。底层模型很明显。



阿里云旗下的魔搭社区(Model-Scope)在线文本生成视频模型。目前由三个子网络组成:文本特征提取、文本特征到视频隐藏空间扩散模型、视频隐藏空间到视频视觉空间,整体模型参数约17亿。


目前,阿里最热门的视频模型应该是最近刚刚在通义上线的。EMO,这种AI商品让照片说话唱歌,属于算法定义的商品,目前已在通义APP上使用。


腾讯推出的视频模型是Mira,当前模型可生成分辨率为128x80长达 20 秒视频和分辨率为384x240长达 10 秒视频。并且提供了数据标记和模型训练工具。


所以目前大厂有一些基本的视频模型,但是真正的对比Sora模型还没有公布。这也是一个奇怪的地方。大工厂不缺人才、计算率和资金。在可以露脸的文化视频领域,动作相对缓慢,让创业公司露脸。


自然,大厂也并非完全没有动作,投资也是参与的一种方式。


由于2023年3月,Vidu背后的生数技术正式成立,RealAI瑞莱智慧、蚂蚁和百度风险投资联合孵化。2023年6月,公司完成天使轮融资近亿元,由蚂蚁集团领先。BV百度风险投资和卓源资本跟进,投资后估值达到1亿美元。天使 轮,锦秋基金独家投资该公司,其前身是字节战投部门。


现在看来,国内Sora的竞争刚刚吹响号角,有些成绩还不算领先。


本文来自微信公众号“AI鲸选社”(ID:aijingxuanshe),作者:鲸哥,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com