人们刚刚毕业,颠覆了整个AI界:扒一扒Sora两位领导人博士论文
看看这个时代最伟大的时代 AI 研究专家脉络。
2024 年是生成式 AI 元年,才到 2 月,OpenAI 就用 Sora 将竞争推向视频生成的新高度。
大家还记得第一次见面 Sora 在工作中感到震惊,感觉其他竞争者想要赶上。 OpenAI,至少要花半年到一年的时间。
Sora 发布后,其开发团队自然成为关注的焦点,每个人都非常关心具有跨世代价值的问题。 AI 技术是怎样开发出来的。DiT 模型作者谢赛宁曾经说过:「她们基本上每天都不睡觉,努力工作一年。」。
随著时间的推移,答案正在慢慢揭晓。
以下是 OpenAI 在技术报告中,Sora 十三位作者:
前两名,Tim Brooks、Bill Peebles,它们被称为「Sora 鼻祖」,担任 OpenAI Sora 项目研究主管,也很年轻。 —— 两人都是 2023 刚从加州大学伯克利分校开始。(UC Berkeley)博士学位毕业。
在 Sora 技术公开后,他们一起宣讲,接受了很多记者的采访。
照片中间为 Tim Brooks,右侧为 Bill Peebles。
看看他们的工作经历,他们分别是在 2023 年 1 月和 3 月加入 OpenAI 的。
我们知道,2022 年 11 月 30 日,OpenAI 的 ChatGPT 出现了,从而掀起了大模型「颠覆世界」的浪潮。
她们跟随传奇,现在回头看,自己也成了传奇。
作为 Sora 其背后的主要推动者,Tim Brooks、Bill Peebles 二人的博士毕业论文,也都是以 AI 视频生成是主题。是时候从技术发展的角度来研究一下 Sora 这是前因后果。
Tim Brooks
个人中心:https://www.timothybrooks.com/about/
Tim Brooks 博士毕业于 UC Berkeley 的「伯克利人工智能研究所」BAIR,导师为 Alyosha Efros。
他在博士学位期间提出了这个问题。 Pix2InstructPix,他也曾经在谷歌工作过 Pixel 提供手机镜头 AI 在英伟达研究过算法工作的视频生成模型。博士学位毕业后,Tim Brooks 加入 OpenAI,参与过 GPT-4、Sora 等待多项研究。
2023 年,Tim Brooks 毕业顺利,博士论文接近 100 页面。这篇论文的标题是《Generative Models for Image and Long Video Synthesis 》。
论文地址:https://www2.eecs.berkeley.edu/Pubs/TechRpts/2023/EECS-2023-100.pdf
论文简介
这篇博士论文中,Tim Brooks 在一般视觉内容创作中提出了图像和视频生成模型的基本要素,主要表现在三个方面:
首先,本文介绍了长视频生成的相关研究,并提出了从视频中学习长时间时间模式的网络结构和训练范式,这是将视频生成从短剪辑推向长方式和连贯视频的关键挑战。
接下来,本文介绍了基于人体姿势生成情景图像的研究,展示了生成模型用于表达人与周围环境关系的能力,并强调了从大而复杂的日常人类活动数据中学习的重要性。
最后,本文介绍了一种通过将大型语言模型和文本与图像模型结合起来创建监督训练数据的方法,然后指导生成模型遵循图像编辑指令。这些工作共同提高了生成模型合成图像和长视频的能力。
Tim Brooks 表示,在他读博期间(2019-2023 2000年),图像和视频生成模型已经从小规模演示发展成为广泛使用的创意工具。他很高兴在这个关键时刻学习视觉生成模型的博士学位,他对生成模型也充满了信心。
下面我们来介绍一下 Tim Brooks 每一章博士论文的主要内容。
第 2 章致力于生成动态丰富、内容新颖的长视频。图片 2.1 展示模型能产生丰富的运动和场景变化。
本章的主要贡献是分层生成器结构,生成器概览图具体如下。

第 3 本章介绍了从复杂的现实世界数据中学习的研究,体现了日常人类活动。人类、物体及其周围环境的相互作用为相关世界提供了丰富的信息来源。Tim Brooks 提出了一种通过条件生成模型来学习这些关系的方法。早期生成模型主要集中在特定的内容类别上,例如面部或特定的对象类别。这项工作将生成一个模型,扩展到用人类建模复杂场景的行业。只需输入一个人的骨骼姿势,这个模型就能产生一个与这个姿势兼容的合理场景。这种模式不仅能产生空场景,还能产生包含人类的输入姿态场景。
这个部分还设计了一个条件。 GAN 为了产生与人类姿态兼容的场景,网络结构是建立在基础上的 GAN2Style ,如图 3.3 所示。
本文还强调了通过练习大规模的人类日常活动视觉数据来理解视觉世界复杂关系的能力。
第 4 本章提出了遵循人类编辑指令的教生成模型的新技术。图片 4.1 模型执行图像编辑指令的示例显示, 4.2 在文本新闻会话中显示使用的模拟界面。

这项研究提出了一种生成匹配数据集的方法,因为很难大规模获取基于指令的图像编辑训练数据。这种方法结合了许多不同模式的大型预训练模型:大型语言模型(GPT-3 )以及文字到图像模型(Stable Diffusion)。这两种模式捕捉到了语言和图像的互补知识,可以将它们结合起来,为跨两种模式的任务建立匹配的训练数据,这两种模式中的任何一种都不能独立完成。
使用生成的匹配数据,Tim Brooks 对条件扩散模型进行了训练,该模型在给定输入图像以及如何编辑文本指令时,生成了编辑后的图像。该模型可以在前向传播中直接执行图像编辑,无需任何其他示例图像或输入。 / 完整描述导出图像或微调每一个示例。尽管模型在生成例上完全练习,但它已经完成了对随机真实图像和人类指令的零样本泛化。该模型可根据人类指令进行各种编辑:改变目标、改变图像风格、改变设置、艺术媒介等。

最后,我们来看看论文中的一些结果。
对比其它方法的结果如下:
总的来说,这篇博士论文确定了未来视觉生成模型的三个关键组成部分:随着时间的推移,从复杂的视觉数据中学习,遵循视觉生成指令。这三个要素对于开发超级智能尤为重要,因为它们可以执行复杂的视觉创造任务,帮助人类创造,将人类的想象力带入生活。
William (Bill) Peebles
个人中心:https://www.wpeebles.com/
2023 年,William (Bill) Peebles 获得伯克利人工智能研究中心博士学位,导师为 Alyosha Efros,与 Tim Brooks 师出同门。
William (Bill) Peebles 本人毕业于麻省理工学院,曾在麻省理工学院。 FAIR、Adobe Research 和 NVIDIA 实习期间,他获得了美国国家科学基金会的博士学位。(NSF)研究生奖学金计划的支持。
William (Bill) Peebles 博士论文的主题是图像生成模型,论文的主题是《Generative Models of Images and Neural Networks》。
论文地址:https://www.proquest.com/openview/818cd87d90514d7d370607d95d80b5/1?pq-origsite=gscholar&cbl=18750&diss=y
论文简介
大规模生成模型推动了人工智能的最新进展。这种模式突破了人工智能的许多问题,其中自然语言理解(NLP)这个领域是最大的受益者。
提供一项新的任务,预训练生成模型可以在零样本中解决这项任务,也可以在少量特定的任务训练样本中进行有效的微调。
但是,在视觉、元学习等领域,生成模型的进展却落后了。
William (Bill) Peebles 博士论文讨论了两种模式(图像和神经网络参数)的生成模式的培训优化和可扩展,讨论了如何利用预培训生成模式解决其他下游任务。
第一,本文确认了扩散模型图像生成扩展特性的扩散保留 transformer(DiT),卷积神经网络优于此前主导的领域。
值得注意的是,DiT 这个结构是在一篇题目中《Scalable Diffusion Models with Transformers》在正式提出的论文中,第一作者就是 William Peebles,另一位论文作者是纽约大学的谢赛宁。
随后,William (Bill) Peebles 为建立新数据库(神经网络检查点)的生成模型,博士论文提出了一个新的学习框架。
本文创建了包括数十万次深度学习和训练在内的数据集,并使用它来训练生成模型。给出初始参数向量和目标损失、错误或奖励,这些数据中训练的损失条件扩散模型可以对所需指标参数值的更新进行采样。
这一方法解决了以前元学习算法的许多困难。 —— 该方法能优化不可微不足道的目标,并省去不稳定的优化方法。和 SGD 和 Adam 基于梯度的迭代优化器不能从升级历史中学到不同的东西。本文提出的生成模型可以通过随机初始化来优化神经网络,只需更新一次生成参数值。
这篇论文确认了预训练 GAN 生成器可以用来建立无限数据流来训练网络,在没有任何人工注释的情况下,缓解密集视觉相关问题的监督。本文描述了所有的选择。 GAN 生成的数据训练神经网络,性能优于以往在真实数据上训练的自我监督和关键监督方法。

本文将提出的框架应用于视觉和强化学习,并讨论了如何在没有特定任务训练数据的情况下,使用预训练图像级生成模型来处理视觉领域的下游任务。
参照内容:
https://www.timothybrooks.com/about/
https://www.wpeebles.com/
本文来自微信微信官方账号“机器之心”(ID:36氪经授权发布,almosthuman2014。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




