究竟如何落地推理王者o1?

2024-11-08

o1“被泄露”的完整版本,成为上周AI界的一大新闻。


9月13日,OpenAI发布了一个全新的模型系列预览版o1版,传说中的“草莓”号。 preview,接着又推出了o1 mini。o1模型系列可以模仿人类思维过程中的“慢思维”,提高人工智能的逻辑推理能力,成为人工智能模型领域的王者,影响整个行业的神经。


但就在上周,很多用户突然发现完整版o1可以在ChatGPT官网使用。奥特曼甚至不小心“登错了账号”,并在社交媒体上宣布“o2即将出现”。


从o1 从preview到o2,这一系列的模型都爆炸了,但似乎所谓的推理能力并没有真正融入到工业应用中,以至于每个人都有一种狼来了的感觉,开始猜测这只是奥特曼的又一个宣传噱头。


比如有网友认为完整版o1已经发布,不是“粗心大意”,而是“精心策划”的炒作,奥特曼的“错号剧透o2”也是假的。



怎样避免真正的技术价值沦为“狼来了”的戏码?回答是,不要让模型能力变成空中楼阁,而要加快落地到行业。


究竟什么情况才能充分发挥o1“慢思考”的技术潜力?本文将探索产业化的发展方式。


慢慢地思考,o1模型系列的核心价值


落地行业,前提是正确认识技术的价值。o1模型系列和老前辈最大的区别和价值是什么?就是慢慢思考。


我们都知道GPT-4o处理一些日常琐事是可以的,但是我们会时不时的犯一些小困惑,小学数学题的加减都有很多漏洞。o1就像一个严格要求的校长,专业的逻辑判断,复杂的任务问题。不久前,在伦敦OpenAI开发者的日本,完整版o1的五大能力包括:函数调用、开发者message、流动传输,结构化导出,图像理解。


如果说4o的数学水平是高中生水平,那么9月份发布的o1-preview就有了大学生水平,即将发布的o2在GPQA研究生水平标准中取得了105%的成绩,将来将是一个合适的研究生。



而且以上能力取决于o1的独特秘籍——慢思考。


已知的人脑有两种模式:一种是快速思考,也就是我们通常的“一拍额头”,靠感觉和经验做出快速决策;另一种是慢思维,是指在解决数学问题和进行科学推理时,需要时间和精力去思考的思维模式,更加注重逻辑和理性分析。


o1在学习过程中,人脑仔细思考,稳扎稳打的思维模式,o1选择强化学习。 思考链条,把复杂的问题分成小块,一步一步来,直到得到最准确的答案,大大提高了模型推理能力。


研究生级别的o1模型系列给AI领域带来了全新的可能性。但是如何真正把“慢思维”的技术潜力转化为实际应用,让o1成为推动产业进步的中坚力量呢?这仍然是一个需要进一步探索的话题。


行业大不相同,落地有顺序。根据落地难度,我们可能会看到类o1的“慢思考”能力,并逐步应用于以下行业。


第一站:金融


坚实的数字化基础,对新技术的高接受度,强大的支付能力,使金融成为大型技术落地的理想场所。


大多数大型模型制造商都把金融业作为业务发展的第一站。但在金融与大模型结合的过程中,由于大模型的推理能力不强,加上幻觉问题,大模型在金融领域的复杂应用中表现并不理想。


此前,大模型在金融行业的应用范围主要是智能客服、报表文档助手等一些容错率较高的浅层应用。然而,风险控制、信贷、投资分析等严肃的生产力场景需要深入分析和推理各种模式的数据,决策质量要求很高。在这些核心业务中,大模型在工作流中的价值相对有限,主要取决于人类专家。



一位银行从业者表示,客户需要我们的财务分析师给出尖锐而专业的观点来帮助决策,而大模型只是泛泛而谈,没有参考价值。


每个人都希望由专业的金融从业者服务。如果AI模型可以应用于一些容错率低的严肃场景,只需要少量的人工控制、监督和验证,专业人士的时间和精力就能释放出来吗?随着“慢思考”逻辑推理能力的出现,这种期待真的有可能实现。



基于类o1的逻辑推理能力,我们预计AI将在金融核心业务中发挥专家作用,发挥更重要的作用。例如,专业审查员可以阅读信用报告,阅读账单流程,甚至解读网络大数据,思考和捕捉数据之间的联系,并生成风险判断的依据和结论。


或者像专业分析师一样,根据用户需求进行个性化的产品设计,仔细分析投资策略,给出理财、投资、保险等建议。


慢慢思考可以让AI突破金融行业大模型的价值上限,从浅薄、边缘、单一的场景进入复杂、核心、高价值的核心业务。


第2站:A14S


“o1太强了...我的医生工作了20个小时,经过3分钟的思考,我赢了。这是我刚读博士的时候做的。我觉得我的生活是灰暗的[眼泪]。”逻辑推理能力达到研究生水平的o1模型系列,让很多人类研究生和博士生感到了实际的困境。


但是用一句流行语来说,“o1不是为了拆散科研的家庭,而是为了加入这个家庭”。


近几十年来,神经网络算法在科学研究领域得到了广泛的应用。数据科学和算法工程提供了大量的操作模式,从宏观世界的天文探索、引力波探测到微观世界的蛋白质折叠和同步灯源,帮助科学领域的探索性项目取得突破。AI技术已经成为科学研究不可或缺的一部分,AI4S的大趋势无法阻挡。


面临这个过程,一位大学力学老师曾经对我们进行过描述:AI与力学的结合,就像一段成功的婚姻刚刚开始,会有甜蜜期,也会有磨合期。



虽然传统的模型算法具有很强的计算能力和方法,但缺乏深入的逻辑推理能力和对科学原理的深刻理解。面对复杂的科学问题,他们通常无能为力,难以提供准确可靠的解决方案。思维方式与追求严谨的科学家完全不同。以前的AI4S完全取决于人类的迁就。


o1慢思维强调逐步分析和深入推理,与科学研究的本质不谋而合。一个思维能力慢的AI模型,相当于掌握了硕士和博士的学习方法,可以逐步拆解问题,处理数据,反复计算,推导结论。



在科学研究领域,类o1模型可以作为科学家的“科学研究伙伴”,起到几个作用:


启发缪斯的灵感。在一些经典的科学问题或成熟的科学研究成果中,科学家通常需要开发新的方法和理论。在这个过程中,AI的逻辑推理能力可以发现数据之间的潜在联系和规律,提出新的假设和预测,为科学研究开辟新的道路。


2.研究助理。由于科学领域的“垂下果实”被采摘,科学家们不得不解决更复杂的问题。以机械为例。在深水探索任务时,不仅要进行简单的维度对比,还要进行更详细的探索研究,包括复杂的外流环境、潜水等复杂动作,这是传统流体控制方法无法预料的。而且逻辑判断大模型可以在这种非线性、高维度的科学问题和科研应用方面有更好的表现。比如Marioo,马克思普朗克研究所的量子物理学家。 Krenn,它显示了复杂的量子物理问题,o1-preview正确地完成了计算。


3.工程助理。科学研究的目的不是简单地开发新的方法和理论。最终的结果应该转化为工业,以解决工业和生活中的实际问题。这不仅需要新颖的想法,还需要技术的安全性、成熟度和容错率。此时,具有逻辑推理能力的大模型可以处理工业场景中的复杂问题,减少幻觉,降低实际应用中的故障率,就像工程师助理一样。


无论是容错率高的创意任务,还是容错率低的工程任务,拥有“慢思维”能力的大模型,都会是更有效的助手,陪伴科学到老。


第3站:教育


ChatGPT的第一个应用案例是帮助学生做作业,因此受到许多国家和学校的严格控制。虽然这个应用领域不可取,但它显示了一个道理:教育行业充斥着大量的文字,重复的任务,是大模型落地的最佳场景。


过去一年多来,“大模型” “教育”新出路的爆发也证实了教育行业AI化的价值存在。但真正应用的主要功能是AI口语对话、AI批改作文、LLM翻译、中英文写作等。



一旦涉及到数学、物理、化学等复杂的学科内容,即使是“9.9和9.11谁大”的GPT也会集体熄火。国内大型模型也是如此。一位国内大型数学模型工作人员告诉我,做数学题的正确率是60%。哪位家长敢让自己的数学成绩刚刚合格,还喜欢“胡说八道”的AI给孩子当家教?


模型能力边界受到逻辑判断的限制。而且模型能力的限制,进一步影响了智能教育硬件、个性化AI在线辅导服务的市场化推广步伐。处理大模型可以说是 教育学的商业化问题,最重要的是问技术要出路,这也是慢思模型的价值所在。


第一,大模型思维缓慢,数学推理能力飞跃,数学准确率更是肉眼可见。2024年刚刚结束。 在IOI信息学奥林匹克竞赛问题中,o1的微调版本在每个问题尝试50次的情况下获得了213分,属于人类选手的前49%。假如允许它尝试每道题10000次,可以得到362.14分,可以得到金牌。对于具有计算率和开发能力的大型教育模型公司来说,完全有可能开发出具有强大数学能力的垂直类模型,为复杂学科或高年龄段提供AI指导功能。



第二,多模式推理模式叠加,教育应用进一步发展。完整版本的泄露o1已经具备了多模态能力,支持上传附件,或者直接识图。有些网民把一个普特南数学竞赛的证明题截图发给o1,然后成功地完成了具有图像推理能力的o1。这意味着教育模式不再局限于文本和语言对话的功能,而是可以与物理世界互动,如拍照和回答问题、实时监控和问答等。无论学生在现实世界中问什么问题,AI都可以大概率找到正确的答案。


更重要的是,因为慢思维模式不再盲目追求参数和scaling law,而重点是提高推理能力和认知效率。换句话说,面对一个复杂的问题或任务,AI模型开始使用“更聪明”的方法,而不是“大飞砖”的愚蠢方法。模型参数值更小,更容易在硬件终端上部署。在相同的终端配备下,推理模型可以表现得更好,有助于AI学习机等教育智能产品的普及,给教育行业带来新的增长点。


下一站AI,行业专家化


虽然慢慢思考的o1模型还是一个新鲜事物,OpenAI噱头大于实际营销手段也是有吸引力的,但可以肯定的是,逻辑推理能力更强的大模型将成为智能领域模厂和行业必须赢得的高地,解决之前的LLM 产业结合止于浅层应用,难以应对复杂业务的产业化问题,从而开启大型商业化空间。


其核心是AI模型开始走出语言任务的局限,能够在容错率低、专业性强的严肃工作中发挥其价值。



专家型人才稀缺的行业场景往往具有很高的价值。懂得慢慢思考的大模型正在慢慢成为行业专家,这让大模型更有意义,也让会思考的人更有意义。


本文来自微信微信官方账号“脑极体”(ID:作者:藏狐,36氪经授权发布,unity007)。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com