大型PK高考数学：DeepSeek文心豆包全部满分，差生意外

2025-06-12

为避免高考学生使用AI作弊，今年高考期间，腾讯混元、通义千问、Kimi、豆包等国内知名AI模型的图片识别问答功能已经暂停。小雷对这些企业的做法有些怀疑。在小雷测试AI模型做高考题之前，大部分都表现不佳。暂停图片识别问答服务似乎过于看重自己的AI模型能力。

截止稿件时，2025年全国高考一卷只公布了三套语文、英语、数学试卷，其中语文高考试题曝光后，很多媒体对AI模型进行了实际测量，编写了作文。然而，每个人对作文的看法可能不同。小雷看到的几篇评论基本都是截取AI模型写的文章，没有给出评价。文章的质量需要读者来判断。

慎重起见，小雷选择了一门答案正确的数学科目，测试AI大模型的能力，选择了DeepSeekk模型。、豆包，讯飞星火，文心一言，Kimi、通义千问，他们可以考上985。、211吗？

六大模型PK，谁是AI界高考状元？

首先说一下测试环境和话题。考虑到有些AI模型不支持手动开关联网，所以所有的AI模型都使用了在线搜索，所有的深度思维功能都被打开了。

选定的数学题，包括一个单项选择题，一个多项选择题，一个填空题，一个简答题，最后根据题目的分数来打分。

第一题(5分)：

如果双曲线C虚轴长为实轴长，√C离心率为7倍(正确答案：D）

A：√6B：2C：√7D：2√2

第一个问题是开胃菜，不难。参加测试的六款AI模型并没有让小雷失望。他们都计算出了正确的答案，并给出了详细的推理过程。在测试中，所有的AI模型都得到了5分。(照片从左到右:DeepSeek、星火，豆包，讯飞，Kimi、文心一言，通义千问，下图同样)

虽然这个问题不难，但这六个AI模型的表现让小雷大放异彩。在测试AI大模型的数学计算能力之前，AI大模型很难计算出稍微复杂一点的问题的正确答案。

只有一轮测试，DeepSeek、讯飞星火，豆包，文心一言，Kimi、通义千问六大AI模型证明了他们的能力，有被高考学生作弊的概率。暂停图片识别问答功能绝不是为了蹭高考的热度。

第2题(6分)：

若cos 2A cos 2B 2sin C=2，SΔABC=1/4，cos Acos Bsin C=四分之一，然后(正确答案：ACD）

A：sin C=sin²A sin²BB：AC² BC²=3C：AB=√2

D：sin A sin B=(√6)/2

这个问题相当困难。只有豆包在两分钟内计算出正确的答案。讯飞星火和通义千问需要一点时间，其他大型AI模型需要更长的时间，尤其是DeepSeek，耗时572秒，接近10分钟。

假如AI大模型像考生一样一次只做一道题，推理慢的三个AI大模型，有可能两个小时都做不完题。

虽然本轮测试中所有AI模型都正确回答了问题，但豆包、讯飞星火、通义千问结合推理所需时间表现良好。

第3题(5分)：

如果一个等比数列的前4项和4项、前8项和68项，则该等比数列的公比为(正确答案：±2）

与前一个问题相比，这个问题的难度明显下降，讯飞星火，文心一言，Kimi、通义千问和DeepSeek五大模型都快速计算出正确答案，文心几乎每秒都在计算。豆包虽然计算出了正确的答案，但是在导出答案的时候却很迷茫，排除了-2。所以小雷要扣豆包三分，豆包只能得2分。

在这一轮测试中，DeepSeek服务器经常出现繁忙的问题，小雷不得不使用第三方应用程序。幸运的是，在这个阶段，许多AI应用程序已经访问了DeepSeek。无论是推理速度还是稳定性，小雷使用的腾讯元宝App都远高于DeepSeek网页版或App。

第4题(17分)：

设数列{an}满足a₁=3，（an 1）/n=（an/（n 1））（1/（n（n 1）））

（1）证实：{n an}是等差数列；(正确答案：n an是an=公差为1的等差数列)

（2）设f（x）=a₁X a₂X² a₃X³ ... amX^m，求f′(-2)。(正确答案：f′(-2)=(7/9)-(3m) 7）/9）·（-2^m））

前三个问题，几个AI应用在体验上只有一定的差异，能力基本没有区别。第四个问题不同，它的复杂性远远超过前三个问题，这也是检验AI模型能力最重要的挑战。

豆包，讯飞星火，在这一轮测试中，Kimi、文心一言，DeepSeek依然表现出色，正确计算了两个问题的答案。通义千问在回答这个问题的时候，可以推断出第一个小问题的答案，但是第二个小问题给出了错误的答案，表现稍逊一筹。

豆包，讯飞星火，文心一言，Kimi、DeepSeek可以在这一轮测试中得到17分的满分，通义千问因为答错了第二个小问题，只能得到7分。

依靠公式和逻辑判断的数学题似乎更符合AI的特点。然而，在多年的评价中，AI模型一般具有良好的阅读理解和写作效果，在复杂的数学题面前找不到答案思路。

光明。com在去年6月的一份报告中提到，复旦大学NLP试验数据显示，AI模型在2024年高考中的表现远强于数学，一些数学题AI模型甚至全军覆灭。没有一个能正确计算答案，遇到选择题的时候也经常出错。归根结底，数学失之千里，不能出一点小错误，文史类的内容可能会出现一些错误和比较模糊的答案。

一年过去了，AI模型进步很快，深度思维模式的加入，数学题的专项推广，让AI模型在处理高考数学题时更加得心应手。

比学霸更好，但是大模型的做题能力已经拉开了距离。

四个问题检测出来，最终得分如下：

DeepSeek：33分；
讯飞星火：33分；
豆包：30分；
Kimi：33分；
文心一言：33分；
通义千问：23分。

经过测试，DeepSeek、讯飞星火、Kimi、文心一言全意得满分，豆包表现不错。因为一时的疏忽，他丢了三分，错过了高考状元。通义千问在计算简单问题时，保持了很高的水平，但在处理困难问题时出现了计算误差，需要再接再厉。

苹果总是给AI行业泼冷水，日前在文章中表示，AI推理模式只是AI推理模式。「假思考」，没有一个稳定可理解的推理过程，更像是记忆，在处理复杂任务时可能会崩溃。Lisan，AI研究者。 al 复制苹果测试方法后，Gaib表示，该模型并非因为推理能力差而失败，而是因为苹果限制了token的导出。

也许AI模型的推理能力还有上限，但是我们可以看到它们的进步。去年复旦大学NLP实验室测试AI模型时，他们在高考数学题面前表现不佳，小雷在几次AI模型横向测试中也取得了类似的成绩。在今年的测试中，AI大模型基本上可以计算出问题的正确答案，曾经难倒AI大模型的多选题，也没有再给AI大模型带来麻烦。

随着AI模型数学题答题技巧的提高，受益最大的可能是学生群体。国内学习机厂商和教育辅导平台相继增加了AI解题能力，但很多设备的AI模型只能回答中小学问题，比如行业龙头猿搜题，题库不包括大学课程。

六大AI模型的出色表现，证明了国内头部AI企业的实力，高考数学题已经被吸引，高数也不远了。学习机器制造商、教辅平台可与头部AI公司合作，提高AI回答商品的能力，继续加强AI教育硬件业务。

本文来源于“雷科技”，36氪经授权转载。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

新的外卖市场格局变化京东外卖上线百日单占比已经超过31%

采访CEO张桐获得帆信息：AI Coding To B，小企业做不到

空降部门领导，下属不配合怎么办？

银泰商管接管大连百年城，大连银泰城正式上市。

荣耀，小米，给传音一个「下马威」

项目推荐

AI云印侠

宾果智能

幸福绩效