OpenAI怒斥Scaling碰壁论,o1已经产生了无限的推理直觉潜力。

2024-11-26


【导读】Scaling Law撞墙了吗?OpenAI高级研究副总裁Mark? Chen正式驳斥了这一观点。OpenAI已经有了o系列和GPT系列两个模型,以使模型能够保持Scaling。


最近,OpenAI高级研究副总裁Mark 在炉边谈话中,Chen正式否定「Scaling Law碰墙论」。


他指出,没有看到Scaling。 为了保持这个Scaling,Law碰壁,甚至OpenAI还有两个案例——o系列和GPT系列。


用他的话说,「我们准确地掌握了需要解决的技术挑战。」。



o1不仅是技能的提升,也是安全的提升。


由于OpenAI为真实用户提供了数十亿美元的价值,所以从经济角度来看,OpenAI已经成为最宝贵的科技公司之一。


二年前,AI最前沿的任务是小学数学题;而且今天,他们已经可以做最难的博士题了。


所以,我们正处在这样一个阶段:AI模型能够解决迄今为止人类最困难的考试。


下一步,即使为世界提供实用性和价值,这些模型一旦解决了博士层面的问题。


在所有基准测试饱和之后,需要考虑的是是否为最终用户提供了价值。


尽管今天AI已经通过了基准测试,但是它还没有完全捕捉到AGI应该做什么。


幸运的是,在过去的一年里,OpenAI内部出现了最令人兴奋的进展——o1诞生了。


它不但是一种能力的提高,而且从根本上说也是一种安全改善。


为何这么说?


想像一下,当我们试图越狱时,旧的GPT系统必须立即做出反应,因此很容易被触发。


但是当我们有了一个推理器,模型就会反思:这个问题是否试图让我做一些与我想做的不一致的事情?


此时,它所获得的额外思考和反思时间,将使其在许多安全问题上更加稳定。


它还符合OpenAI研究者最初的期望。


在提到推理的时候,这是一个普遍的概念,不仅仅是用于数学或者编程。


程序设计中使用的推理方法,也可能适用于谈判,或者玩一个非常困难的游戏。


而且说到基准测试,在安全方面也有同样的挑战。


安全性有点类似于这种对抗性的攻击框架。这样的话,攻击力很强,所以我们在这方面还有很长的路要走。


如何到达五级AGI?


从一级到五级,AGI的关键驱动因素是什么?


在OpenAI提出的框架中,AGI的不同层次被定义。具体来说,它是一个更独立、更独立的系统,从基础推理者发展到更智能的系统,再到在现实世界中付诸行动模式。



稳定性和推理能力是这一过程的关键。


由于它们不够可靠,我们今天仍然无法依赖许多智能系统。这就是OpenAI下注推理能力的原因。


OpenAI之所以投入大量资金,是因为它非常自信:推理能力将促进可靠性和稳定性。


所以,我们现在正处于哪个阶段?


OpenAI研究人员认为,目前我们正在从第一阶段向第二阶段过渡,并朝着更智能的系统方向发展。


虽然许多智能系统仍然需要人类的监督,但它们变得越来越独立。模型可以自己原创,我们对AI系统的认可度也在逐渐增加。


生成数据的力量


生成数据,就是不由人类直接生成的数据,而是模型生成的数据。


有没有什么好的方法可以生成用于训练模型的合成数据?


在数据稀缺或数据质量较低的数据集中,我们可以看到生成数据的力量。


举例来说,在练习DALL-E这样的模型时,使用了生成数据。



训练图像生成模型的核心问题之一是,当我们在网上看到有标题的图片时,标题与其描述的图片之间的关联性普遍较低。


或许你会看到一张热流球的照片,标题不是关于汽球本身,而是关于汽球本身。「我度过了最好的假期」之类的。



根据OpenAI研究者的说法,在这种情况下,我们可以真正使用生成数据来训练一个可以为图片生成高保真标题的模型。


接着,OpenAI已经证明,这种方法非常有效,可以重新生成和捕获整个数据。


这种方法也可以用于数据集中某些方面较差的其他领域。


Scaling Law没碰墙


近来一个非常热门的观点是,Scaling Law已经撞墙,很多大型基础实验室都遇到了预训练的瓶颈。


真的是这样吗?


Mark Chen的观点是,虽然在预训练中确实遇到了一些瓶颈,但OpenAI内部的观点是,已经有两种非常活跃的模式,让人产生了无限的希望。


在Scaling范式测试中,他们探索了一系列模型,发现它们真的在快速发展!



Scaling推理模型也没有同样的难题。


事实上,自从早期加入OpenAI以来,研究人员一直面临着许多技术挑战。现在这些挑战已经很具体了,在Mark 在Chen看来,没有什么是完全无法应对的。


在OpenAI中,人们常说推理范式已经达到了一定的成熟度。有些产品已经和市场有了契合点,虽然进度还是很慢。


在过去的几个星期里,最令人惊讶的使用场景是与o1进行头脑风暴。


与GPT-4相比,o1让人感受到了一个全新的深度:人类似乎终于有了一个真正可以互动的陪练伙伴,而不仅仅是评论自己的观点。


它就像一个真实的实体,很有参与性。


O1的推理直觉,是怎样产生的?

OpenAI的研究者,是如何想到o1中的推理直觉的?


这些都是集体努力的结果,但他们也做了很长时间的工作,并进行了一些探索性的重点尝试。


两年前,他们觉得AI虽然很聪明,但是在很多方面都不够。不知道为什么,总觉得不像AGI。


因为AI被要求立即做出回应,所以他们假设这是因为。


即使我们要求人类立即做出反应,ta也未必能给出最佳答案。


也许有人会说,我需要思考一会儿,或者我需要做一些研究,明天再回复你。


OpenAI研究人员在这里发现了亮点!


事实上,这里缺少的是连接系统一和系统二之间的差距。



快速思考,知识也有,但是没有慢慢思考,核心假设就在这里。


为了解决这一挑战,研究人员做了很多不同的尝试。


一群非常有探索精神的研究者,得到了一些生命迹象。


围绕这些迹象,他们成立了一个研究小组,扩大了项目规模,投入了大量的数据生成工作。


在所有情况下,从快速进展中获得预测结果是最困难的部分。


刚开始的时候,就像登月计划一样,会面临很多失败。


在过去的三四个月里,他们一点也没有取得多大的进步。


幸运的是,最终,总会有人取得重大进展。它也给了他们足够的动力来投入更多的资源,并向前推进。


OpenAI在o1推出几个月后与许多外部合作伙伴进行了交流。


其中最酷的一件事就是,他们发现它比使用微调方法要好得多——它不再容易被问题难住。


很多应用已经超出了研究者之前所关注的数学和科学领域。看到AI的推理能力可以泛化到这些领域,实在是太神奇了。


举例来说,在医学领域,模型在判断医学疾病时,涉及到形成假设、验证,然后产生新的假设。


即使在研究人员没有特别关注的行业,模型也会迅速发展,如医学、法律推理等。


但是他们也相信,未来还会有其他尚未测试过的行业,AI将会有重大突破。


OpenAI仍然注重安全。


Mark 当然,Chen表示,OpenAI仍然像早期那样致力于研究和安全。


因此, 他 管理一个很大的研究项目组合。并且 一直在思考应该分配多少资源和力量进行探索性研究,而非短期即时项目。



然而,在这方面,OpenAI不同于许多大型基础实验室。


这几个大实验室都有许多优秀的研究者,他们可以自由地做任何事情,没有方向。


但是对于OpenAI来说,它们的规模要小于这些实验室,因此需要更多的方向。


在这些领域,他们选择了一些非常自信的探究项目,给研究人员带来了极大的自由。


换言之,OpenAI不会进行无目标的探索,并充分利用其小规模的优势。


如今是AI创业的好时机。


OpenAI的研究人员也认为,现在是建立基于AI的创业公司的好时机。


基本模型玩家注重实用性。


但是像OpenAI这样的企业,不可能涉足每个垂直领域。


有很多空间和概率可以在特定的领域定制模型。


现在,我们可以看到一个丰富的初创企业生态系统,它基于OpenAI构建了各种类型的应用。


一般情况下,创业公司之所以能够成功,是因为他们知道并且坚信某个秘密,而市场上的其他人则不知道这个秘密。


事实上,在AI领域,它是在一个不断变化的技术栈中建造的,我们无法预测下一个模型何时会出现。


表现最好的创业公司,就是那些有直觉,在刚刚发挥作用的边缘技术上建立起来的公司,他们有一种生命力。


在我们拥有AGI的时候,就是一种非常强大的方式,真正释放了所有的潜力。


想像一个人可以在一周内创建一家大型创业公司,这将带来巨大的价值。


几天之内,一个人产生巨大影响的想法,已不再局限于商业领域。


这种怀旧的感觉就像17世纪,科学家们正在讨论物理学。


一个人能否在医学、物理学或计算机科学领域做出重大发现,回到那种氛围?


而且这一切,都是因为AI。


参考资料:


https://x.com/tsarnick/status/1860458274195386658


本文来自微信微信官方账号“新智元”,编辑:Aeneas,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com