国产 Sora 隐藏在这支清华大模型团队中的秘密

2024-05-03

2024 年,Sora 一直生活在聚光灯下。


马斯克毫不犹豫地赞美这个词。「人愿意赌服输」;在红衣教主周鸿祎的眼中, Sora 人类实现 AGI 将减少到一两年。即使是卖付费课程的微商,也会拿来。「Sora」再一次组装自己的镰刀。


这一狂热的蔓延,从美国到中国,从一级到二级,甚至到三级市场,就像波澜一样,蔓延到世界。


因为,理想情况下,长视频产生的底层逻辑,大约等于世界模型。十秒或几十秒的视频包括基本的图像处理、空间关系、物理规律、因果逻辑等现实规律和知识的投射。从小处看,这是关键的一步,可以打翻传统电影和游戏制作的桌子,从大处看,通向通用人工智能


与此同时,在一群长视频生成算法中,Sora 技术突破是革命性的。。相较于传统 Stable Diffusion,Sora 采用的 Diffusion 加 Transformer 结构,既解决了问题 Stable Diffusion 缺乏可扩展性,更加在内容生成的准确性和灵活性方面有了质的飞跃。


唯一美中不足的是,Sora 不是开源算法。


没有开源,就没有再现的可能;如果没有再现的可能,那么即使是经济管理背景的合作伙伴睡前阅读材料也会变成《Scalable diffusion models with transformers》,投资者一周跑遍北京、深圳科技产业园三尺,每个人都要承认一个现实,尽管有很多大型视频公司,但是也许还没有等到国产 Sora 视频大模型淘汰赛的正式挖掘已经结束。


业界「哇声一片」,一级市场却空前焦虑。中国AI公司,只能眼睁睁地看着自己的距离。 Sora 是不是越走越远?


「国产 Sora」来了?

场中 VC 几乎绝望的时候,谁也没有想到,国产产品 Sora 秘密,首先揭晓谜底的,竟然是成立仅一年多的大型企业——生数科技。


近日,学生数学科技联合清华大学宣布推出国内首个基于纯自主研究的国内。 U-ViT 视频大模型结构「Vidu」,支持一键生成接近 16 秒,分辨率高达 1080p 超清晰视频内容。根据官方公布的短片,Vidu 就多镜头生成、时间与空间的一致性、真实物理世界的模拟、想象等而言,几乎与 Sora 相平


与其它国产产品相比「类 Sora」工作,Vidu 最明显的特征之一就是画面时间足够长。


提示:一艘木制玩具船在地毯上航行。注意:这是 Vidu 一段官方视频可以在生数科技旗下发布。 PixWeaver 平台查看


一直以来,十秒几乎都是。「国产 Sora」一条生死线。要实现或超过十秒,就意味着对训练材料的积累,以及如何处理算法记忆消失的问题,需要进行深入的研究。


这是 Vidu 另外一段官方视频发布,从视频中可以看出,白色老式 SUV 在山坡和土路上行驶时,滚动的轮胎会扬起灰尘,轨迹自然连贯;在阳光的照射下,周围的森林遵循了现实世界中的投射规律,留下了斑驳的光影。


形成对比的是,在保证视频时长的前提下,大多数国产产品「类 Sora」人物和场景的连贯性很难维持,也很难真正遵循物理世界的规律,比如吃汉堡留下咬痕,开车时留下尾气和灰尘的痕迹。


据业内人士透露,目前市场上以前的一些人「类 Sora」事实上,大多数模型都是通过插帧的方式,在视频的每两帧图片中加入一帧或多帧来提高视频的长度。


这样就需要对视频进行逐帧处理,通过插入额外的帧来改变视频的长度和质量。整个画面会显得僵硬而缓慢。


但是生数技术的作用原理明显不同。基于单个模型的完全端到端生成实现底层算法,直观上我们可以看到「一镜到底」丝滑感,视频从头到尾不断生成,没有插帧痕迹。


另外,还有一些工具类长视频使用。「换汤不换药」的做法。许多其它模型的工作都集中在底层,比如先基于。 Stable Diffusion、Midjourney 生成单张图片,然后生成图片 4s 短片,再做拼接。换言之,如果你想要一个十几秒钟的长视频,那就把多个视频 4s 短片拼在一起就好了,不但整体场景流畅度会大大降低,底层也没有实现长片生成能力的突破。


除生成时间有质的突破外,我们还可以从官方的视频中看到,Vidu 同时也使画面持续流畅,具有细节,逻辑连贯。尽管都是运动画面,但是很少出现穿模、鬼影、运动不符合实际规律的问题。


做一个简单的对比。以下是一个热门视频模型团队的视频生成效果截图。虽然整个视频只有四秒钟的长度,但只有一个准备跳跃的动作指令,足以让画面中的小猫变成 6 只有脚,或者三条尾巴。「鬼影」。



对比度如此鲜明,让人不禁疑惑:为什么ChatGPT发布后,市场立刻涌现出一批「达到 GPT 3.5,逼近 GPT4.0」大型商品。同样的追求,为什么? Sora 商品就是这么难?


答案是,ChatGPT 发布不久,Meta LLama2 开源,开源平替解决国内问题 ChatGPT 技术再现的燃眉之急。和 Sora 没有开源,技术细节没有公开,从而实现。「国产 Sora」只剩下自研这条路可走。


根据 OpenAI 技术报告公布,Sora 一篇名为“核心技术架构”的文章背后《Scalable Diffusion Models with Transformers》论文中,论文提出了一篇即将到来的论文。 Diffusion(扩散模型)和 Transformer 结合的架构——DiT,后边被 Sora 选用。


巧合的是,比 DiT 两个多月前,清华团队提出使用。 Transformer 取代基于 CNN 的 U-Net 的网络结构 U-ViT。在架构路线上,两者并不一致。即使在这个过程中,也有一个小插曲,因为发布日期比较早,最初的计算机视觉顶会 CVPR 2023 包括清华大学 U-ViT 论文,却以「缺乏创新」为由拒稿了 Sora 底层使用的 DiT 论文。


学生数学技术的创始团队起源于清华大学的论文团队。公司 CTO 这篇论文的第一作者鲍凡就是这篇论文。 Vidu 模型底部采用的是 U-ViT 结构。换言之,生数技术不属于追求 Sora 其中一个人,一大早就踏上了同一起跑线,甚至更早。


由此窥探,生数科技虽然成立时间短,但来头并不小。


深挖发现,在人才方面,其团队核心成员来自清华大学人工智能研究所,是国内最早的深层生成研究团队。在技术方面,团队的许多研究成果 OpenAI、苹果、Stability AI 等应用于 DALL·E 2、Stable Diffusion 等模型中,是目前在生成式领域发表文章成绩最多的国内团队。从背景来看,生数科技已经获得蚂蚁集团、启明创投、BV 众多知名机构的认可,如百度风投、字节系锦秋基金等,完成了数亿元的融资。


而且真正做到这一切,为何是生数?


为何是生数技术?

或许最重要的答案是,生数科技很早就走对了技术路线。


基于市场上大多数视频生成算法的使用 U-Net 传统的卷积结构扩散模式不同,这次发布的生数技术 Vidu 与 Sora 所有使用的结合架构(即上面提到的) U-ViT 与 DiT)。


所谓的结合架构,可以理解为 Diffusion(扩散模型)和 Transformer 的结合。


Transformer 在大语言模型中使用架构是众所周知的,其优点是 scale 特性,参数越多,效果越好, Diffusion 常用于传统的视觉任务(图像和视频生成)。


结合架构就是在这里 Diffusion Model(扩散模型),使用 Transformer 更换常用的 U-Net 卷积网络,将 Transformer 可扩展性和可扩展性 Diffusion 将视觉数据的自然优势与模型处理相结合,可以在视觉任务中展现出优秀的出现能力。


2022 年 9 月亮,团队提交了 U-ViT 在世界范围内首次提出扩散模型和论文 Transformer 结合架构思路。两个多月后推出的 DiT 同样的结构也采用了这个思路,然后 Sora 选用。


相比仅在 ImageNet 上面做了实验 DiT,U-ViT 仍然是小数据(CIFAR10、CelebA)、ImageNet、图文数据 MSCOCO 他们都做了实验。而且,与传统相比, Transformer,U-ViT 提出了一项「长连接」技术,大大提高了训练的收敛速度。


之后,团队继续深入。2023 年 3 月亮,团队是基于 U-ViT 大规模的图形数据架构 LAION-5B 上训练出近 10 十亿参数模型 UniDiffuser,并且把它开源,UniDiffuser 支持图形模态之间的随机生成和转换。


UniDiffuser 实现有一个重要的价值——首次验证了大规模训练任务中结合架构的可扩展性(Scaling Law),相当于在大规模训练任务中运行结合架构的所有阶段。


值得注意的是,同样的图文模型,UniDiffuser 直到最近才切换到 DiT 架构的 Stable Diffusion 3 领先一年。


不过,虽然都选择了结合架构,但是在后续商品路径的推广上,基于资源等方面的考虑,Sora 团队挑选「每日基本不睡觉,高强度工作一年。」all in 长片,生数科技选择从长片, 2D 图像开始,然后进一步扩展到 3D 和视频。


路线没有对错之分,一个基础知识就是国内创业公司,技术路线可以和 OpenAI 同样,表示眼光足够长久;但是商业玩法参考 OpenAI 就是自寻死路——Sora 背后是 OpenAI 技术实力,以及微软几乎无限的算率支持,一般企业没有学习资本。


所以,回顾整个故事 2023 2008年,生数科技的主要资源全部放置在图像和 3D 去吧。今年到了 1 月份,生数科技正式上线。 4 秒短视频生成,2 月份 Sora 公司发布后,公司正式攻坚,不久就在 3 这个月突破了 8 秒视频生成,4 月份实现 16 秒长突破,产生质量和时长,全面取得突破。


仅仅2个月的时间就完成了 4 秒到 16 第二次训练任务,速度惊人。


其背后不仅来自技术架构方面。「前瞻」,还有就是通过过去图像到 3D 由浅入深的视频,使团队积累了高效的工程经验。


本质上,视频是时间序列中图像的扩展,可以看作是一个连续多帧的图像。因此,从图像开始,基础设施的工程化工作,如数据收集、清理、标注和模型高效训练,可以重用。Sora 就是这样做的:它采用了 DALL·E 3 通过对视觉训练数据进行详细的描述,使模型能够更准确地按照客户的文本指令生成视频。


据悉,「Vidu」我还重用了生数技术在图形任务方面的许多经验。通过前期图像等任务的准备,生数技术利用视频数据压缩技术降低了输入数据的序列水平,同时采用了自主研发的分布式培训框架,在保证计算精度的同时提高了通信效率。 1 倍数,显存费用减少 80%的训练速度累计提高 40 倍。


路要一步一步走,饭要一口一口吃。在这个争夺「国产 Sora」在商业游戏中,技术上寻找和寻找方向是第一步;并且走出去「国产」特征,也是生存的前提,两者缺一不可。


本文来自微信微信官方账号“极客公园”(ID:geekpark),作者:刘芮Ray,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com