OpenAI新模型o1的可怕之处在于“编程作为一个职业在今天结束”

2024-09-14

还记得OpenAI之前的高层地震吗？

导致Sam 创始人Greggreg免除了Altman。 Brockman辞职，OpenAI矛盾不断激化，是一位名叫Q*(读作Q*-Star）的项目。

据知情人士透露，当时Q*项目取得了重大突破，基础数学题已经可以解决了。与GPT-4不同，GPT-4只能解决有限数量计算的计算器，GPT-4每次都给出同一个问题不同的答案。Q*也许已经有了归纳、学习和理解的能力，而这正是迈向AGI的关键一步。OpenAI的研究人员向股东大会发出警告，Q*重大发现可能威胁人类，而Sam Altman隐瞒了这一点。

OpenAI内部日新月异，而OpenAI本身从来没有正面回应过Q*的出现。

今日，OpenAI突然推出了一款新型号，目前这款车型仍然是前瞻版，它就是传说中的Q*，后来的编号“Strawberry”，如今的OpenAI o1-preview。

与ChatGPT不同，解决复杂问题的新推理模型是一系列。｜OpenAI

o，还是“omini”，包罗万象的o，不过根据OpenAI的说法，这个模型“它代表了人工智能的新高度"，和以前的大模型在工作模式上有很大的不同，所以可以单独建立一个新的系列，从1开始重新计算(GPT5：我老了！)。

至于这个模型是否像Ilya？ OpenAI前核心科学家对Sutskever和其他反水的判断会“威胁人类”、把人类推向AGI(通用人工智能)时代，在道德约束不完善的前提下，每个人都可以看完文章自己判断。

跑赢一切，o1

第一步是熟悉的跑分阶段。

每一代大模型的出现，都会跑出前所未有的新高度，但是这一次的o1却有着本质的不同。

目前流行的大模式大多以聊天机器人的形式出现，很难解释思维路径，发展方向是多模式(能说能听)，在语气和反应上越来越像人。o1不同于它们。

第一，它的目标并非越来越快，甚至越来越慢。。

NoamamoopenAI科学家 Brown说，目前o1秒可以给出答案，但未来可以探索几个小时、几天甚至几周。附上一张图片后，o1在探索了十几秒钟后对一个病例进行了诊断。Noam Brown不言而喻，推理时间长，代表着模型可以构建更长的思维链，进行更深层次的思考。

其次，o1突破了以前大语言模型的死穴，数学。

AIME，美国数学邀请赛比奥运会简单，比SAT难很多，一般用来选拔美国数学最好的高中生。让GPT4-o写邀请赛题只能得12分，但o1一次解决问题得74分。如果取样1000次，重新排序1000个样本的评分函数(这样可以更好地反映模型的预期水平)，o1得了93分，能跻身美国前500名。名，可以入选美国数学奥运会。

与GPT-4o表现相比，o1在数学方面取得了很大的进步。｜OpenAI

让o1写2024年国际信息学奥林匹克竞赛。（IOI）这个问题，它在10小时内，每个问题最多可以提交50次，得到213分，在人类选手中排名前49%。若将提交频率放到10000次，o1可以获得362.14分，可以获得IOI金牌保送清华。

实际测试中，采用了o1微调版，并非我们可以使用的前瞻版本。｜OpenAI

另外还有很多没有测试的。比如在GPQA(综合理化生智力测试)中，o1在某些问题上超越了相关领域的医生。

简单地说，在已经很强的领域内卷早已不是o1的目的，在语言模型不擅长的复杂逻辑上取得突破。

退一步，进两步

正如上面所说，o1的反应速度变慢了。

在做出反应之前，它会花更多的时间去思考，然后逐步完善思考过程，尝试不同的策略，并从错误中学习。这个很可怕。

而且o1现在已经不是多模态模型了。，OpenAI使用了两年，让大模型可以看到和听到，现在回归自然，o1只能接受字符输入。

变慢变单调，对于o1来说，是退一步，进一步。已经使用o1的人说o1是他们使用过的最聪明的模型，他们之间的对话已经超出了之前的小规模。

客户在一次测试中问了o1一个逻辑谬论问题：“这个问题的答案中有多少个单词？？”

o1思考了十秒钟，并展示了思考的过程。第一个想到，那是一种自我指责的谬论，或者递归问题，在答案没有确定的情况下，答案的字数是无法确定的，“减少不必要的表达对答案的清晰和简洁非常重要”。下一步是计算字数，这需要使句子中存在的数字与句子的字数相匹配。然后它列出了很多句子，在里面找到了最合适的匹配选项。它发现“这五个字”有五个字，所以把句子成分换成完整的答案后，五个句子应该换成七个句子。

所以它回答：“答案中有七个字。”