OpenAI震撼发布里程碑模型，o1号：更加强大，更加昂贵

2024-09-14

文 | 虞景霖

编辑 | 苏建勋邓咏仪

有传言说OpenAI模型项目“草莓”已经拖了很久，终于出现了。

九月十三日凌晨，北京时间，Open AI正式发布了它的第一个推理能力模型，代号为OpenAI。 o1，包含无所不能的大哥o1-preview，还有质量惊人的小弟o1-mini。

JerryyOpenAI的研究负责人 Tework方向The Verge透露:“o1使用了一个全新的优化算法和一个新的训练数据集，为它量身定制。”因此，该模型的命名并没有持续GPT系列，而是“称为o1，以表示‘重置计数器1’。”

o1的革命意义也在这里——这代表了大模型能力在推理这条道路上的新征程，而不是简单地作为GPT系列的延续。

谣言已久的o1一上线，就在X引起了广泛的讨论：评论区网友拍手叫好，AI圈网红Jim Fan仍然出现在宣传中。

而且Jim Fan还强调，o1发布里程碑的意义在于，它验证了之前提到的“两条曲线协调工作”理论，展示了训练计算检测计算如何共同影响模型的最终性能。

传统的模型训练强调在训练中投入大量的计算资源。o1模型代表了一种新的AI模型开发模式。它强调了测试时计算(或推理时计算)的重要性——o1显著提高了模型性能，通过增加测试/推理时的计算资源。

Brockman，一个“假期”的总裁，也出现在Calll上。来源：X

如果之前的模型是用“直觉”来回答问题，那么o1给出的答案就是经过深思熟虑后的回答，这种变化来自于背后的“链式思维”。（Chain-of-thought）机制。

Markk主管使用OpenAI研究。 “模型正在学习自己的思维，而不是试图模仿人类的思维方式，”Chen说。

简单来说，o1会在给出答案之前在“大脑”进行内部对话，用“让我思考”、“我在思考”等句子来呈现思考过程。

模拟思考过程：“我很好奇”“我在想”“好吧，让我看看” 来源：OpenAI

到底o1的表现如何？用数据说话：

在数学方面，2024年美国数学邀请赛（AIME）中，GPT-O1的平均准确率为12%(15道题处理1.8道题)，O1的平均准确率在第一次尝试中达到74%。采用集体决策和高级评分策略，O1的准确率最高可达93%。这一结果不仅使o1在美国前500名优秀学生中名列前茅，而且超过了美国数学奥林匹克竞赛的当选分数。

GPQA Diamond是对化学、物理、生物等领域专业知识的专门评价。o1不仅完成了这项测试，而且超越了一些拥有相关行业博士学位的人类专家，这表明AI在特定专业领域的能力已经达到了一个新的高度。

在编程方面，o1在全球信息学奥林匹克竞赛中。（IOI）在与人类选手相同的条件下，o1获得了213分的高分，位居选手前50%。在限制进一步放宽的情况下(每个问题的提交频率从50提高到10000次)，o1获得了362.14分的高分，超过了获得金牌的门槛。

o1在模拟Codeforces平台的竞争性编程比赛中获得了1807的高分，超过了93%的人类竞争对手，这远远超过了GPT-4o(Elo得分为808，仅超过11%的人类竞争对手)。

简而言之，o1是一个非常勤于思考和推理的大模型。此外，它的运行机制是基于scaling的。 law的大模型不同，这使得它不需要基于大量的计算消耗来提高性能，而是一个相当垂直的模型。

尽管o1模型表现出了出色的能力，但是仍然有一些局限性值得注意。

第一，在响应速度方面，o1可能没有其它模型快。

Thomson 副总裁PablooReuters Arredondo：o1有时需要10秒以上的时间来回答一个问题，这可能是一个需要快速响应的场景。

第二，与GPT-4o相比，o1在功能上还存在一些不足——目前无法浏览网页，也无法处理文件和图像。

另外，o1并非多模态模型，这意味着它不能对图像或音频输入进行分析。

OpenAI承认o1在模型输出质量方面存在一些挑战。根据技术论文中的反馈，o1似乎比GPT-4o更容易产生“幻觉”，即生成看似合理但实际上并不准确的信息。与此同时，o1似乎并不像GPT-4o那样经常承认自己不知道答案，这在某些情况下可能会导致误导性导出。

OpenAI官方特别推荐o1用于解决以下复杂问题：科学、编码、数学及相关产业。

即日起，ChatGPT 可访问o1-preview和o1-o1-Plus和Team客户-mini；公司客户和Edu客户将在下周获得访问限制。OpenAI计划为所有ChatGPT免费客户提供o1-mini访问限制，但是正式发布日期尚未确定。

对于API浏览来说，符合API使用水平5的开发者(已经支付了1000美元，超过30天)可以使用API中的两个模型进行原型设计，目前的速度限制为20个请求/分钟。此外，目前的API版本还没有支持函数调用、流程处理、系统消息支持等一些高级功能。

就定价而言，在API中，o1-preview中每100万只token的输入价为15美元，导出价为60美元，比GPT-4o高3-4倍。

??扫码加入「智涌AI交流群」??

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

没有明星可以拯救好莱坞颁奖季节。

现场直播被封，掉粉百万...头带货主播“乱斗”，行业该洗牌了？

著名导演纷纷结束监制，可靠吗？

永辉首批自主改店福州公园道店试营业，首日销售额突破110万元

一亿赔偿之争：大主播翻车，赔偿全靠良心。

项目推荐

康小虎 · 健康小屋

毛加健康

康老板 · 氧疗堂