OpenAI新模型o1的可怕之处在于“编程作为一个职业在今天结束”

2024-09-14

还记得OpenAI之前的高层地震吗?


导致Sam 创始人Greggreg免除了Altman。 Brockman辞职,OpenAI矛盾不断激化,是一位名叫Q*(读作Q*-Star)的项目。


据知情人士透露,当时Q*项目取得了重大突破,基础数学题已经可以解决了。与GPT-4不同,GPT-4只能解决有限数量计算的计算器,GPT-4每次都给出同一个问题不同的答案。Q*也许已经有了归纳、学习和理解的能力,而这正是迈向AGI的关键一步。OpenAI的研究人员向股东大会发出警告,Q*重大发现可能威胁人类,而Sam Altman隐瞒了这一点。


OpenAI内部日新月异,而OpenAI本身从来没有正面回应过Q*的出现。


今日,OpenAI突然推出了一款新型号,目前这款车型仍然是前瞻版,它就是传说中的Q*,后来的编号“Strawberry”,如今的OpenAI o1-preview



与ChatGPT不同,解决复杂问题的新推理模型是一系列。|OpenAI


o,还是“omini”,包罗万象的o,不过根据OpenAI的说法,这个模型“它代表了人工智能的新高度",和以前的大模型在工作模式上有很大的不同,所以可以单独建立一个新的系列,从1开始重新计算(GPT5:我老了!)。


至于这个模型是否像Ilya? OpenAI前核心科学家对Sutskever和其他反水的判断会“威胁人类”、把人类推向AGI(通用人工智能)时代,在道德约束不完善的前提下,每个人都可以看完文章自己判断。


跑赢一切,o1


第一步是熟悉的跑分阶段。


每一代大模型的出现,都会跑出前所未有的新高度,但是这一次的o1却有着本质的不同。


目前流行的大模式大多以聊天机器人的形式出现,很难解释思维路径,发展方向是多模式(能说能听),在语气和反应上越来越像人。o1不同于它们。


第一,它的目标并非越来越快,甚至越来越慢。


NoamamoopenAI科学家 Brown说,目前o1秒可以给出答案,但未来可以探索几个小时、几天甚至几周。附上一张图片后,o1在探索了十几秒钟后对一个病例进行了诊断。Noam Brown不言而喻,推理时间长,代表着模型可以构建更长的思维链,进行更深层次的思考。



其次,o1突破了以前大语言模型的死穴,数学


AIME,美国数学邀请赛比奥运会简单,比SAT难很多,一般用来选拔美国数学最好的高中生。让GPT4-o写邀请赛题只能得12分,但o1一次解决问题得74分。如果取样1000次,重新排序1000个样本的评分函数(这样可以更好地反映模型的预期水平),o1得了93分,能跻身美国前500名。 名,可以入选美国数学奥运会。



与GPT-4o表现相比,o1在数学方面取得了很大的进步。|OpenAI


让o1写2024年国际信息学奥林匹克竞赛。(IOI)这个问题,它在10小时内,每个问题最多可以提交50次,得到213分,在人类选手中排名前49%。若将提交频率放到10000次,o1可以获得362.14分,可以获得IOI金牌保送清华



实际测试中,采用了o1微调版,并非我们可以使用的前瞻版本。|OpenAI


另外还有很多没有测试的。比如在GPQA(综合理化生智力测试)中,o1在某些问题上超越了相关领域的医生。


简单地说,在已经很强的领域内卷早已不是o1的目的,在语言模型不擅长的复杂逻辑上取得突破。


退一步,进两步


正如上面所说,o1的反应速度变慢了。


在做出反应之前,它会花更多的时间去思考,然后逐步完善思考过程,尝试不同的策略,并从错误中学习。这个很可怕。


而且o1现在已经不是多模态模型了。,OpenAI使用了两年,让大模型可以看到和听到,现在回归自然,o1只能接受字符输入。


变慢变单调,对于o1来说,是退一步,进一步。已经使用o1的人说o1是他们使用过的最聪明的模型,他们之间的对话已经超出了之前的小规模。


客户在一次测试中问了o1一个逻辑谬论问题:“这个问题的答案中有多少个单词??”


o1思考了十秒钟,并展示了思考的过程。第一个想到,那是一种自我指责的谬论,或者递归问题,在答案没有确定的情况下,答案的字数是无法确定的,“减少不必要的表达对答案的清晰和简洁非常重要”。下一步是计算字数,这需要使句子中存在的数字与句子的字数相匹配。然后它列出了很多句子,在里面找到了最合适的匹配选项。它发现“这五个字”有五个字,所以把句子成分换成完整的答案后,五个句子应该换成七个句子。


所以它回答:“答案中有七个字。”



这一推理过程与我的推理过程没有太大区别。|X


另外一个例子中,o1用5.6秒、631个token回答了简单的问题“straberry里有几个r”。



从上面的例子可以看出,o1的工作方式与ChatGPT有着本质的不同。如今,o1加入了推理token。,将一个问题分成多个步骤,然后分别思考,然后去掉推理token产生答案。


下面的图表显示了思维链的工作方法,这也解释了为什么o1的响应速度变慢。



使用o1时,不妨使用一些经典的逻辑问题和数学问题来验证其能力。


也许在回答简单的问题时,是否进行多轮推理没有明显的区别,但这种思维能力在解决代码敲击、数学问题和科学领域的复杂问题时是不可或缺的。


在论文中,OpenAI表示,现在,医务人员可以使用o1来标记细胞测序数据,科学家可以使用o1来生成复杂的数学公式来生成量子光学,各个领域的开发者可以使用o1来构建和实施多步工作流程。


更加重要的是,它是思维方式的雏形,是智慧的早期形态。


新模型,新习惯


由于o1的工作方式与ChatGPT不同,以前看到的教你写prompts的教程也不再适用于这种情况,过多的描述只会消耗大量的token,而不一定会得到更好的结果。


OpenAI写了一个新的token指南,以便所有用户都能理解这一点。OpenAI显示,在o1中,OpenAI最佳prompts是直接而简单的。,一步一步地完成指挥模型或给出一些零散的提示可能会适得其反。下面是一些官方建议:


Prompts应该简单直接。该模型对简短清晰的指令响应效果最佳,无需过多的指导。


防止思维链在prompts中。o1会自己进行内部推理,所以引导它一步一步地思考和解释你的探索路径是没有用的。


最好使用分隔符来提高清晰度。使用‘‘‘’ ’’、<>、§为了帮助模型分批处理问题,等分隔符可以清楚地区分prompts的不同部分。


在生成过程中,限制检索额外的前后文本。只提供最相关的内容,防止过度思考模型。



当我看到第三篇文章时,我对这种格式有一种熟悉的感觉。未来的程序员很可能会用自然语言编程,基本的指令还是那些,只是变成了白话。根据最新的指南,一个好的prompts看起来会是这样的:


<写一个贪吃蛇游戏>


<要3D的>


<蛇遇到外框比赛终止>


或者这样:


§主持人§作家§酒吧老板§油画家§皮匠§银匠§歌星§手鼓艺人§背包客§黄金左脸§法国骑士§禅宗徒弟§


剩下的就交给模型自己想去吧。


给我一分钟,做3D贪吃蛇。


举个贪蛇的例子是有原因的。O1发布不到一天,就有人用它做了很多尝试,包括3D贪蛇。


X上的@Ammaar Reshi使用了极其简单的prompts,只用了一分钟就写出了一条3D贪吃蛇,而且o1还手把手教他如何使用代码。



你学会写prompts了吗?|@Ammaar Reshi


尽管效果有点简单,但是没有人能说它不是贪吃蛇。



并且相当有趣|@Ammaar Reshi


网友@James Wade用o1做了一个数据分析app,可以显示每个分布的简短描述和例子,只用了15分钟,这也包括部署时间。他说:我以前从来没有想过做这样的事情。以前太麻烦了。



效果如图|@James Wade


另一个工作了16年的全栈工程师@Dallas Lones,做一个React需要几分钟。 在Native全栈开发App之后,他感慨地说,自己一开始并没有尽快创业,现在这门手艺已经成为时代的眼泪。“作为一种职业,编程今天正式结束。”。



还有更多的人在挑战o1的极限,已经有人玩过“看谁的问题比较棘手,可以让o1思考的时间最长”的游戏。



现在,o1首先是ChatGPT。 Plus和Team客户开放,而API访问限制将首先向OpenAI开放。 5级用户在API上花费超过1000美元。下一步,OpenAI将逐步向免费客户开放o1低配版。-mini。


那是人类的夕阳吗?


本文来源于微信微信官方账号“果核”(ID:作者:翻转,36氪经授权发布,Guokr42)。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com