o1R&D团队首次集体采访:教AI数r一年半。

02-14 07:08

笑死,原来 o1 和人类一样喜欢追赶 ddl。


这是在 o1 在团队的“大型会议”上,OpenAI 创始成员 Wojciech Zaremba 揭开的 o1 “黑历史”。


包含 Zaremba 在内的 18 首席研究官的团队成员 Bob McGrew 在领导下围坐一团。


o1 核心推动者 Hyung Won Chung、Noam Brown 等待关键人物,也都在这里。


o1成员们踊跃发言, 发展过程也逐渐被揭开—— AlphaGo 和早期 GPT 启发模型,想到两个模型背后的范式组合。


之后,团队训练出了第一个能够生成连贯思维链模型的模型,这意味着研究内容开始逐渐清晰和集中…


大家也分享了相关的相关内容,充满了轻松的气氛。 o1 许多有趣的研究开发:


在 OpenAI 内部,也喜欢使用“数字” r "来测试大模型能力


为解决“数”问题 r "的问题,OpenAI 花了一年半


技术人员会直接将代码报错信息丢失 o1 去 debug


o1 曾经说过,人生的意义是“ 42 ",也试图用代数来定义" love "


与此同时,他们还发现了o1。 不但比人类更善于发现新的东西 CoT 推理步骤,同时也涌现出自我分析能力。


有些网民称赞说,这确实是一支优秀的队伍,特别喜欢听他们的讲话,而且模型推理能力确实比以前更强。


量子位整理了本次采访的实录,下面一起来看看。 ~


o1 这是什么?什么是推理?


Bob McGrew:我是 OpenAI 研究小组负责人,我们刚刚发布。 o1 和 o1-mini 模型。


对于这一点,我们感到特别兴奋,今天我们的整个团队都聚集在这里来解释这两个模型。


什么叫 o1?


Bob McGrew:所以,(第一个问题),究竟是什么? o1?


Hyung Won Chung:我们打开了一个新的模型系列,并给它起了一个新的名字。 o1。


这个目的是强调,和 GPT-4o 与之前的模型相比,o1 差别很大,以后会有人详细解释。


o1 这是一种推理方法,所以它在回答问题之前会想得更多。


我们发布了两个模型-(满血)o1 的 o1-preview,以及更小、更快的 o1-mini,它跟着o1(满血) 采用相同的训练框架。


但愿每个人都喜欢我们的新命名方法。


什么是推理?


Bob McGrew:那推理又是什么意思呢?


Giambattista Parascandolo:对简单的问题来说,我们希望在提问之后马上得到答案。


例如,你问意大利首都在哪里,你不必想太多,也知道答案是罗马。


但是如果你想知道一个复杂的问题的答案,或者写一个好的商业计划,或者写一部小说,你可能要思考一段时间,你想得越多,你得到的结果就越好。


而推理便是把思考时间转化为更好的结果。的能力。


你在研究开发过程中有什么事情? o1 工作多久了?


Bob McGrew:你们在 o1 工作多久了?


Jakub Pachocki:在 OpenAI 在早期,我们受到了很大的影响 AlphaGo 受到成绩的启发,看到了深层次。强化学习因此,我们对此进行了深入的研究,并看到了数据和机器人技术的大规模扩展。


为了实现非常强大的人工智能,我们还开始考虑如何加强通用领域的学习。


接着我们看到了 GPT 扩展和扩展范式监督学习从那以后,我们一直在思考如何才能取得惊人的成果。将这两种不同的范式合二为一。


Mark Chen:很难确定项目开始的确切时间,但是已经和 Yaku 和 Shimon 进行初步探索,与 Lukash、Ilya 进行初步探索。


这是一个重要的时刻 Jerry 随着他的加入,他推动了这个大项目的发展。


“研究过程中的” Aha moment "


Bob McGrew:在研究过程中,我认为最精彩的就是什么“ Aha moment ",每个人的工作中有什么亮点?


Jerry Tworek:我们训练了 GPT-2、GPT-3 和 GPT-每次都成为媒体上的热点。


但是第一次有这种感觉就是当模型出来的时候,大家都赞不绝口。


对我来说,这个时刻就是我们倾注更多的计算资源,第一次产生一个连贯的思维链。时。


那时我们心想,这和以前的模型看起来真的很不一样。


Trapit Bansal:在考虑训练一种推理模式的时候,我立刻想到的一件事就是用人的思维过程来练习。


但是我发现,使用 RL 训练模型可以产生自己的思维链,结果可以做到比人类写的思维链要好


对我来说,这是一个" Aha moment ",它告诉我们,通过这种训练方法,可以扩展模型推理能力。


Hunter Lightman:为了使模型更好地解决数学问题,我们花了很长时间。


为了这个目的,我们付出了很多努力,我们想出了很多不同的方法,但是有一件事让我很沮丧,


每一次阅读这些模型的输出,都会发现模型似乎永远不会质疑自己哪里出了问题,什么时候出了问题。


但是在我们早期训练的时候 o1 当模型与之交谈时,发现它在数学测试中得分更高。


通过观察它的推理,我们发现它开始质疑自己,并进行了非常有趣的反思。


那时我感到哇,我们发现了一些不同的东西。


感觉模型是像人还是像机器?


Bob McGrew:每个人在看模型思考的过程中,都认为它们更像真人还是机器人?


Liam Fedus:它更像是一种“精神体验”。


您可以看到模型也会犯很多人类经常犯的错误,并且可以看到它对某些常识提出异议。


奇怪的是,模型会带来人类的行为。


Wojciech Zaremba:设置了模型 ddl 这种情况通常是存在的快 due 迅速得出结论


看起来大模型也知道自己必须马上给出答案。


Karl Cobbe:在我年轻的时候,我花了很多时间参加数学比赛,而我之所以进入人工智能领域,是因为我试图实现这个过程的自动化。


所以对于我来说,这是一个很重要的转折点,因为我看到这个模型实际上可以遵循我在解决这个问题时使用的步骤。


虽然这个想法并不完全一样,但是很可靠。


Wojciech Zaremba:我们认为,这些模型正成为真正促进工程和科学发展的因素。


假如他们似乎可以解决即使是专家也很难解决的问题,那就能促进科学进步。


研究开发过程中的困难


Bob McGrew:我谈到了很多激动人心的时刻,那么在工作中又遇到了什么障碍呢?


Jerry Tworek:从根本上说,训练大模型是一件非常非常困难的事。


有成千上万的事情可能会出错,而且每一个领域都有事情的确出错。


所以这里几乎每个人都像大家都知道的那样,在练习这些东西上付出了很多努力和汗水,想出了如何让模型继续学习和进步。


实际上,成功之路十分狭窄,而失败的途径却很多。


Wojciech Zaremba:就像发射火箭一样,如果你偏离了一个视角,你就无法到达目的地,而这就是我们的工作。


Ilge Akkaya:这款车型很好,一般比人类好几倍,可以达到医生的水平。


但这有时是一个挑战,因为我们必须经常验证模型不会偏离轨道。


但是我们已经饱和了所有行业级别的评估,我们不知道下一步该研究什么。


Mark Chen:那也是一种成就感,就像每次遇到困难一样。


正如这支队伍要克服的另一个障碍,我真的很高兴我们能解决所有这些小障碍。


OpenAI 内部这样用 o1 如何测试模型表现


Bob McGrew:每个人都有哪些测试模型的方法,有没有喜欢的问题,并且发现模型在这些问题上越来越好?


Shengjia Zhao:Strawberry 里有几个 r?


Wojciech Zaremba:无论什么原因,ChatGPT 解决这一问题是不可靠的。


我们花了一年半的时间,现在我们可以计算出来。 strawberry 里的" r "的总数。


Hunter Lightman:我有个习惯,我想别人也有。


每次上推特的时候,都会看到一些帖子说大模型很难解决这种问题。


我把它复制粘贴进去,然后发现我们的模型可以做到。


内部 o1 使用方法


Bob McGrew:为使人们知道他们能用这个模型做些什么,我非常想听听大家的用法。 o1 有些方法。


Hyung Won Chung:我使用 o1 这种方法主要用来敲代码。


许多工作都是关于代码的,我越来越重视问题的定义,并且使用它们。 TDD(试验驱动开发)。


所以,我不再编写实现功能代码,而是专注于编写单元测试。


由于 o1 能实现物品,所以我能致力于需要解决的重要高级问题,这确实是转移我注意力的一个重要途径。


另外一个领域是 debug,现在,当我收到一些错误的消息时,我只需要把它们传达给我。 有时它会立即处理o1。


即使没有,它至少会给出一些更好的问题,并提供一些更好的方法来思考这个问题。


所以对于我来说,这是一个很重要的工作变化,我希望这也能帮助别人。


o1-mini 的出现过程


Bob McGrew:o1-mini 这个故事是什么?它是怎么诞生的?


Hongyu Ren:我们想把 o1 这个系列给更多的人带来了更低的成本,所以做到了。 o1 mini。这是 o1 最小的框架演示,就是“推理专家”。这可能不知道你喜欢的名人的生日,但它可以有效地推理和智能化。


其实它的确很聪明,比我们以前最好的模型要聪明得多,几乎和以前一样。 o1 相当,但是成本和延迟远低于它。


然而,它确实有局限性。你可能不知道很多关于外部世界的知识。这与技术本身无关。我们试图让它达到和之前最好的模型最小版本一样的水平,我们仍然在努力进一步改进它。


客户尝试了 o1 mini 因为推理和思考的速度真的很快,所以会很兴奋。


是什么鼓励你做这些研究?


Ł ukasz Kaiser:我只是觉得在这个世界上,有一些事情是可以推理和智能的,比我想象的要小得多。他们可以用不同的方式做到这一点,这是非常迷人的。


Giambattista Parascandolo:我认为这是转变模型范式的第一步。这个问题以前需要很长时间才能解决,现在已经达到了分钟级,这只是漫长道路的第一步。我们希望在几个月或几年后迈出第二步。


Wojciech Zaremba:我认为这是非常有意义的,我们能够在本质上对世界产生一些积极的影响。


而且很有意思,我喜欢对着电脑“说话”,喜欢在集群中开始一份工作,也很喜欢合作。


Jerry Tworek:我认为科学技术可以改善人类的生活,我喜欢我们的模型可以为人们工作,帮助我们处理日常问题,并赋予他们推理能力,使他们做事。


Liam Fedus:我认为这种模式解决了一些模型无法解决的问题,所以它不仅仅是一个更好的答案,而是一种解锁新能力,在世界上创造新知识的能力,比如科学发现。我认为这是最令人兴奋的部分。


在短时间内,它自己的进化会越来越快,这真的很棒。


Mark Chen:在数学等方面,我们团队中的一些成员有自己的背景,这驱使我们自己创造出最好的系统。


Hyung Won Chung:我认为推理比你想象的要强大。当人类想要完成某项任务时,最基本的方法就是推理。你会遇到困难,所以你必须找到解决办法。


我认为 AI 研究人员的工作似乎是找到一种投入更多计算的方法。硬件研究人员在这方面做得很好,硬件成本长期以来一直在指数级下降。


需要越来越多的计算,就像肩膀上的重量越来越重一样。为了帮助我们卸下一些重量,这种新模式已经找到了一种方法。


你们在这项研究中还观察到了什么?


Jason Wei:每一个模型都有自己的“爱好”,我们发现了一个有趣的现象。


每一种训练模式在每一项任务中都有不同的表现。所以模型可能有些任务表现得更好,有些则表现得更差。每一个模型都有自己的个性和优势。


最后,原视频在这里呈现出来。 ~


原始视频地址:


https://www.youtube.com/watch?v=tEzs3VHyBDM


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com