OpenAI震撼发布里程碑模型,o1号:更加强大,更加昂贵
文 | 虞景霖
编辑 | 苏建勋 邓咏仪
有传言说OpenAI模型项目“草莓”已经拖了很久,终于出现了。
九月十三日凌晨,北京时间,Open AI正式发布了它的第一个推理能力模型,代号为OpenAI。 o1,包含无所不能的大哥o1-preview,还有质量惊人的小弟o1-mini。
JerryyOpenAI的研究负责人 Tework方向The Verge透露:“o1使用了一个全新的优化算法和一个新的训练数据集,为它量身定制。”因此,该模型的命名并没有持续GPT系列,而是“称为o1,以表示‘重置计数器1’。”
o1的革命意义也在这里——这代表了大模型能力在推理这条道路上的新征程,而不是简单地作为GPT系列的延续。

谣言已久的o1一上线,就在X引起了广泛的讨论:评论区网友拍手叫好,AI圈网红Jim Fan仍然出现在宣传中。
而且Jim Fan还强调,o1发布里程碑的意义在于,它验证了之前提到的“两条曲线协调工作”理论,展示了训练计算检测计算如何共同影响模型的最终性能。
传统的模型训练强调在训练中投入大量的计算资源。o1模型代表了一种新的AI模型开发模式。它强调了测试时计算(或推理时计算)的重要性——o1显著提高了模型性能,通过增加测试/推理时的计算资源。


Brockman,一个“假期”的总裁,也出现在Calll上。 来源:X
如果之前的模型是用“直觉”来回答问题,那么o1给出的答案就是经过深思熟虑后的回答,这种变化来自于背后的“链式思维”。(Chain-of-thought)机制。
Markk主管使用OpenAI研究。 “模型正在学习自己的思维,而不是试图模仿人类的思维方式,”Chen说。
简单来说,o1会在给出答案之前在“大脑”进行内部对话,用“让我思考”、“我在思考”等句子来呈现思考过程。

模拟思考过程:“我很好奇”“我在想”“好吧,让我看看” 来源:OpenAI
到底o1的表现如何?用数据说话:
在数学方面,2024年美国数学邀请赛(AIME)中,GPT-O1的平均准确率为12%(15道题处理1.8道题),O1的平均准确率在第一次尝试中达到74%。采用集体决策和高级评分策略,O1的准确率最高可达93%。这一结果不仅使o1在美国前500名优秀学生中名列前茅,而且超过了美国数学奥林匹克竞赛的当选分数。

GPQA Diamond是对化学、物理、生物等领域专业知识的专门评价。o1不仅完成了这项测试,而且超越了一些拥有相关行业博士学位的人类专家,这表明AI在特定专业领域的能力已经达到了一个新的高度。

在编程方面,o1在全球信息学奥林匹克竞赛中。(IOI)在与人类选手相同的条件下,o1获得了213分的高分,位居选手前50%。在限制进一步放宽的情况下(每个问题的提交频率从50提高到10000次),o1获得了362.14分的高分,超过了获得金牌的门槛。
o1在模拟Codeforces平台的竞争性编程比赛中获得了1807的高分,超过了93%的人类竞争对手,这远远超过了GPT-4o(Elo得分为808,仅超过11%的人类竞争对手)。

简而言之,o1是一个非常勤于思考和推理的大模型。此外,它的运行机制是基于scaling的。 law的大模型不同,这使得它不需要基于大量的计算消耗来提高性能,而是一个相当垂直的模型。
尽管o1模型表现出了出色的能力,但是仍然有一些局限性值得注意。
第一,在响应速度方面,o1可能没有其它模型快。
Thomson 副总裁PablooReuters Arredondo:o1有时需要10秒以上的时间来回答一个问题,这可能是一个需要快速响应的场景。
第二,与GPT-4o相比,o1在功能上还存在一些不足——目前无法浏览网页,也无法处理文件和图像。
另外,o1并非多模态模型,这意味着它不能对图像或音频输入进行分析。
OpenAI承认o1在模型输出质量方面存在一些挑战。根据技术论文中的反馈,o1似乎比GPT-4o更容易产生“幻觉”,即生成看似合理但实际上并不准确的信息。与此同时,o1似乎并不像GPT-4o那样经常承认自己不知道答案,这在某些情况下可能会导致误导性导出。
OpenAI官方特别推荐o1用于解决以下复杂问题:科学、编码、数学及相关产业。
即日起,ChatGPT 可访问o1-preview和o1-o1-Plus和Team客户-mini;公司客户和Edu客户将在下周获得访问限制。OpenAI计划为所有ChatGPT免费客户提供o1-mini访问限制,但是正式发布日期尚未确定。


对于API浏览来说,符合API使用水平5的开发者(已经支付了1000美元,超过30天)可以使用API中的两个模型进行原型设计,目前的速度限制为20个请求/分钟。此外,目前的API版本还没有支持函数调用、流程处理、系统消息支持等一些高级功能。
就定价而言,在API中,o1-preview中每100万只token的输入价为15美元,导出价为60美元,比GPT-4o高3-4倍。
??扫码加入「智涌AI交流群」??
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




