解读|肖仰华:o1模型的数学能力达到博士水平会有什么影响?

2024-09-14

·专家推理能力不是刷题,需要有很强的思维能力。大型推理技能训练的难点在于人类从不表达大量的思维过程,所以思维过程中的数据极其稀缺。他推断OpenAI这次应该用了很多生成数据。


·人类对人工智能的理解越来越难以赶上人工智能的发展速度,这是一个巨大的治理挑战。人类是人工智能魔法的解封者。如果人工智能有超人的能力,人类很可能无法激活它的超能力,因为它超出了人类自身的认知水平。


OpenAI推出的新型o1具有很强的推理能力。视觉中国 图


当地时间9月12日,OpenAI推出了新一代模型系列o1。与之前的模型相比,该模型具有很强的推理能力。在处理了物理、化学和生物的标准任务后,它的表现与博士生相似,而这种能力是之前模型所没有的。


9月13日,复旦大学计算机科学技术学院教授、博士生导师、上海市数据科学重点实验室主任肖仰华在接受《ThePaper》采访时表示,o1模型的出现意味着大模型的推理能力可以达到专家级水平,可以算是人工智能的里程碑式进展,将大大提升模型在公司端的应用。


然而,他也承认,随着模型在知性、感性和理性方面的优势不断提高,它将超越人类的能力。人工智能未来会对人类产生什么样的影响还很难预测。“人工智能的发展速度现在已经超过了人类理解的速度,人工智能治理将是一个巨大的挑战。”肖仰华说。


善于推理复杂的任务,表现类似于医生。


新推理模型o1作为一个初始模型,虽然它还没有完全具备ChatGPT的一些功能,比如浏览网络信息、上传文件和图像。然而,OpenAI表示,这是一个巨大的进步,代表了人工智能能力的新水平,对于复杂的推理任务。


他们学会了完善思维过程,尝试不同的策略,并通过训练认识到自己的错误。“在训练过程中,如何有效利用其思维链进行大规模强化学习算法教学模型的思考,o1模型可以在回应客户之前产生一个长长的内部思维链。o1性能随着学习的加强和思考的时间的增加而不断提高。它学会了把棘手的过程转换成更简单的步骤。如果现在的方法不起作用,它就会尝试不同的方法。


新型推理模型o1在数学和编程方面表现良好,擅长精确生成和调试复杂代码。在2024年AIME考试中,OpenAI评估了AIME(美国数学邀请赛)模型的数学成绩,GPT-平均4o只能解决12%(1.8/15)的问题,对于每个问题的单个样本,o1平均为74%(11.1/15)。奥林匹克国际数学(IMO)在资格考试中,GPT-4o只能正确处理13%的问题,而83%的新推理模型。


新模型可以推理复杂的任务,在处理物理、化学和生物的标准任务后,它们与博士生相似。OpenAI在化学、物理和生物方面进行了GPQA裸钻基准测试。为了将模型与人类进行比较,招聘了具有博士学位的专家来回答问题。


他说:“我们发现o1的表现超过了那些人类专家,成为第一个在这个标准上做到这一点的模型。这并不意味着o1在所有方面都比医生更有能力,只是模型在处理一些医生需要解决的问题上更熟练。“OpenAI表示,医疗卫生研究人员可以使用o1来解释细胞测序数据,科学家可以使用o1来生成复杂的数学公式,这些公式需要量子光学,所有领域的开发人员都可以使用o1来构建和实施多步工作流程。


里程碑式推理能力将大大提高应用效果。


他说:“以前的大语言模型更像是文科生,离理科生的水平还很远。但是人类智力的核心能力是思考和思考,OpenAI新推理模型o1系列将人们的思考过程呈现出来。”肖仰华说,新推理模型o1的本质仍然是大语言模型,只是深入挖掘了大模型的潜力。在过去,大模型的形成能力是由语料决定的,就像“熟读唐诗三百首,不会写诗也会吟”一样。但是专家推理能力不是刷题,需要有很强的思维能力。大型推理技能训练的难点在于人类从不表达大量的思维过程,所以思维过程中的数据极其稀缺。他推断OpenAI这次应该用了很多生成数据。


“OpenAI具有一定的先发优势,其基础模型更强,收集了大量的思维过程数据,筛选和合成了大量高质量的思维数据,具有很强的评价能力。哪些推理过程是正确的,哪些推理过程是错误的,这就需要加强学习的形式。强化学习本质上是一个探索和试错的过程,如果不起作用,会改变另一种方式。”肖仰华说,OpenAI利用这些技术和数据,使大型模型成为真正的理科生,并达到专家级水平。


达观数据董事长陈运文表示,之前的模型无法计算出复杂的高数问题,o1增强了数学和推理能力,这是一个很大的进步。然而,数学能力的提高并不意味着大模型的R&D模式发生了实质性的变化,而是定向改善了以前的不足。


在肖仰华看来,o1的出现并不出乎意料。“其实我们很早就判断大模型会有更强的情感能力和更强的理性能力。没想到这么快就看到了,效果还是那么惊艳。”他认为,未来OpenAI可能会在一般大模型的基础上区分出很多擅长做不同事情的大模型。


比如GPT-4之前的版本对所有的知识和事实都了如指掌,强调知性能力;GPT-4o多模式交互,强调感性能力;o1系列重视思维,强调理性能力。提高模型理性能力将使To B产业将迎来巨大的发展。“To B最大的痛苦和瓶颈在于大模型的推理能力。新推理模型o1系列的出现代表了To1系列。 未来B行业的诸多问题将得到极大的缓解。”


人工智能飞速发展带来的挑战


“OpenAI真的很强大。虽然到目前为止OpenAI的技术路线还没有超出认知范围,但我们都知道大模型的发展趋势包括多模式和提高推理能力,但只有OpenAI才能迅速将其变成现实。他们完全按照调试人类的方式训练大模型,对人类的智力发展和思维发展有很强的思路,对人类的成长和进化有非常清晰的认识。目前,他们还没有意识到哪一步走错了路。”肖仰华说。


OpenAI的先发优势是显而易见的,“OpenAI的优势对我们来说都是劣势。要沉下心来,慢慢追逐。一般人工智能跑道只有第一,没有第二。”但是从长远来看,肖仰华表示,大模型能力单项能力的提升也是有天花板的。由于人类真实原始数据有限,产生速度缓慢。当前OpenAI利用人类数据生成新数据,提高推理能力。然而,由于原始数据的限制,生成数据无法生成无限数据,也无法获得实质性新颖的数据。它不能像爱因斯坦那样发明新的学科,提出新的理论。在硬件方面,推理对计算能力的需求低于训练,但由于思维链的延伸,对推理效率的要求提高,对加速推理过程提出了更高的要求。


然而,随着大型模型在多种能力方面的提高,它给治理带来了挑战,挑战在于人类认识的提高速度不如发展速度。


思想家康德将人们的认知过程分为三个阶段:感性、知性和理性。如今,大模型的感性、知性和理性都在提高,很可能超越人类。很少有人能在这三种认知上都很强。


“目前o1已经达到博士水平,未来达到科学家水平只是一个实现量变的过程。人类将逐渐陷入人工智能发展的认知盲区。比如目前大模型的推理能力意味着什么?真正能达到AI知识水平的人的比例只会越来越小。世界上几乎没有人能在数学、物理和奥数方面达到医生的水平。我们有多少人能理解、认识和控制AI?肖仰华说,人类目前缺乏人工智能的基本认知框架,这是一个巨大的治理挑战。就业、经济、伦理、社会关系等话题将引起广泛讨论。“人类是人工智能魔法的解封者。如果人工智能有超人的能力,人类很可能无法激活它的超能力,因为它超出了人类自身的认知水平。”


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com