北京中考试卷发布后，我们来看看GPT-4o九章大模型对战。

2024-08-02

继高考之后，全国各地的中考也相继落下帷幕。此前，许多机构和媒体用高考试题来评价大模型的“高考成绩”，引起了很多关注。面对中考试题，尤其是大模型不太擅长的数学科目，会有什么结果？

让我们以今年北京中考数学试卷为例，再来测试一下大模型的解题实力吧！

今日测试的“选手”分别是国产九章大模型和 GPT-4o 大模型。九章大模型（MathGPT），它是一种以答题和讲题算法为核心的大型模式，面向全球数学爱好者和科研机构。此前在 Matheval 在多个维度的评价中，排名第一。GPT-4o 是由 OpenAI 除了自然语言理解之外，公司研发是国际上备受瞩目的大语言模型之一，GPT-4o 还具有一定的推理能力，能处理需要逻辑分析和判断的问题。

到底是谁在这场“数学竞赛”中更胜一筹，让我们一起来看看。

第一，先说结论

这个测试选择了 2024 2008年北京中考数学试卷 17 问题，分别是 8 道选择题、8 道路填空题及 1 道解答题。

九章大模型在试题竞争中的正确率是 85%，GPT-4o 的正确率为 75%。

【九章大模型（MathGPT）】

选择题 8 题，做对 5 题。

填空 8 题，做对 6 题。

九章大模型总分 = 5 * 2 分 6* 2 分 1 分 = 23 分 ( 满分 30 分 )

【GPT-4o】

选择题 8 题 , 正确 5 题。

填空 8 题 , 正确 5 题。

GPT-4o 总分 = 5* 2 分 5* 2 分 = 20 分 ( 满分 30 分 )

注意：填空的最后一个问题有两个问题。 2 分数，答对一问记 1 分。

在此次 AI 在比赛中，九章模型凭借其在数学领域的专业优势获得了更高的准确性。这说明定制的大模型可以在特定领域展现更强的性能，尤其是数学解题。但两者在复杂图题上的表现都存在不足，说明在逻辑推理和步骤展示这类问题时，AI 仍然需要加强。

就教育而言，AI 大型模型为学习者提供及时的反馈和考点分析，有助于增强学习感受和深刻的理解。但是同时，AI 局限性也警告我们，它目前还不能完全取代人类教师的角色，尤其是在精细化指导和沟通方面。

将来，AI 与教育的融合可以促进教学模式的创新，例如人机协同教学和自适应学习路径等。要实现这些愿景，AI 在保证准确性和普遍性的同时，技术需要进一步提高其在复杂情况下的理解和应用能力。

测试方法

1、测试题目：2024 北京中考数学试卷选择题第一 1-8 题，填空第 9-16 问题，答题第一 26 题。

2、由于数学答案的评价涉及到复杂的推理步骤和逻辑判断，很难直接判断模型答案的准确性。因此，本次测试的重点是选择题和填空。这些问题一般都有明确正确的答案，方便公平评价模型的答案能力。

选择题，难分伯仲。

以一个经典的概率推理名为例，我们来看看两者的分析过程。

九章大模型如下作答：

GPT-4o 分析思路：

填空，九章大模型获胜。

第 14 题，GPT-4o 回答错误

正确回答九章大模型：

GPT-4o 分析过程：

第 16 问题，都是错误的

九章大模型只回答了第一个问题，其分析过程：

GPT-4o 两个问题都答错了，答案过程：

五、解答题

第 26 问题，九章大模型最终答案是正确的。

九章大模型分析过程：

GPT-4o 最后的答案是错误的，其分析过程：

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

云计算巨头掀起了一场法律战：亚马逊控告诺基亚专利侵权

日本加时后悔输给了法国，八村24分被驱逐，河村29分依然荣败。

《SHANGHAI IN MY 再次开启MIND全球征集

夺冠后球拍被踩断了？！王楚钦回应

【红锦州·印记】红色文物：登城红旗

项目推荐

康小虎百岁计划・健康大使招募计划

康老板 · 氧疗堂