北京中考试卷发布后,我们来看看GPT-4o九章大模型对战。
继高考之后,全国各地的中考也相继落下帷幕。此前,许多机构和媒体用高考试题来评价大模型的“高考成绩”,引起了很多关注。面对中考试题,尤其是大模型不太擅长的数学科目,会有什么结果?
让我们以今年北京中考数学试卷为例,再来测试一下大模型的解题实力吧!
今日测试的“选手”分别是国产九章大模型和 GPT-4o 大模型。九章大模型(MathGPT),它是一种以答题和讲题算法为核心的大型模式,面向全球数学爱好者和科研机构。此前在 Matheval 在多个维度的评价中,排名第一。GPT-4o 是由 OpenAI 除了自然语言理解之外,公司研发是国际上备受瞩目的大语言模型之一,GPT-4o 还具有一定的推理能力,能处理需要逻辑分析和判断的问题。
到底是谁在这场“数学竞赛”中更胜一筹,让我们一起来看看。
第一,先说结论
这个测试选择了 2024 2008年北京中考数学试卷 17 问题,分别是 8 道选择题、8 道路填空题及 1 道解答题。
九章大模型在试题竞争中的正确率是 85%,GPT-4o 的正确率为 75%。
【九章大模型(MathGPT)】
选择题 8 题,做对 5 题。
填空 8 题,做对 6 题。
九章大模型总分 = 5 * 2 分 6* 2 分 1 分 = 23 分 ( 满分 30 分 )
【GPT-4o】
选择题 8 题 , 正确 5 题。
填空 8 题 , 正确 5 题。
GPT-4o 总分 = 5* 2 分 5* 2 分 = 20 分 ( 满分 30 分 )
注意:填空的最后一个问题有两个问题。 2 分数,答对一问记 1 分。
在此次 AI 在比赛中,九章模型凭借其在数学领域的专业优势获得了更高的准确性。这说明定制的大模型可以在特定领域展现更强的性能,尤其是数学解题。但两者在复杂图题上的表现都存在不足,说明在逻辑推理和步骤展示这类问题时,AI 仍然需要加强。
就教育而言,AI 大型模型为学习者提供及时的反馈和考点分析,有助于增强学习感受和深刻的理解。但是同时,AI 局限性也警告我们,它目前还不能完全取代人类教师的角色,尤其是在精细化指导和沟通方面。
将来,AI 与教育的融合可以促进教学模式的创新,例如人机协同教学和自适应学习路径等。要实现这些愿景,AI 在保证准确性和普遍性的同时,技术需要进一步提高其在复杂情况下的理解和应用能力。
测试方法
1、测试题目:2024 北京中考数学试卷选择题第一 1-8 题,填空第 9-16 问题,答题第一 26 题。
2、由于数学答案的评价涉及到复杂的推理步骤和逻辑判断,很难直接判断模型答案的准确性。因此,本次测试的重点是选择题和填空。这些问题一般都有明确正确的答案,方便公平评价模型的答案能力。
选择题,难分伯仲。
以一个经典的概率推理名为例,我们来看看两者的分析过程。
九章大模型如下作答:
GPT-4o 分析思路:
填空,九章大模型获胜。
第 14 题,GPT-4o 回答错误
正确回答九章大模型:
GPT-4o 分析过程:
第 16 问题,都是错误的
九章大模型只回答了第一个问题,其分析过程:
GPT-4o 两个问题都答错了,答案过程:
五、解答题
第 26 问题,九章大模型最终答案是正确的。
九章大模型分析过程:
GPT-4o 最后的答案是错误的,其分析过程:
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




