大型PK高考数学:DeepSeek文心豆包全部满分,差生意外

06-12 10:09

为避免高考学生使用AI作弊,今年高考期间,腾讯混元、通义千问、Kimi、豆包等国内知名AI模型的图片识别问答功能已经暂停。小雷对这些企业的做法有些怀疑。在小雷测试AI模型做高考题之前,大部分都表现不佳。暂停图片识别问答服务似乎过于看重自己的AI模型能力。


截止稿件时,2025年全国高考一卷只公布了三套语文、英语、数学试卷,其中语文高考试题曝光后,很多媒体对AI模型进行了实际测量,编写了作文。然而,每个人对作文的看法可能不同。小雷看到的几篇评论基本都是截取AI模型写的文章,没有给出评价。文章的质量需要读者来判断。



慎重起见,小雷选择了一门答案正确的数学科目,测试AI大模型的能力,选择了DeepSeekk模型。、豆包,讯飞星火,文心一言,Kimi、通义千问,他们可以考上985。、211吗?


六大模型PK,谁是AI界高考状元?


首先说一下测试环境和话题。考虑到有些AI模型不支持手动开关联网,所以所有的AI模型都使用了在线搜索,所有的深度思维功能都被打开了。


选定的数学题,包括一个单项选择题,一个多项选择题,一个填空题,一个简答题,最后根据题目的分数来打分。


第一题(5分):


如果双曲线C虚轴长为实轴长,√C离心率为7倍(正确答案:D)


A:√6B:2C:√7D:2√2



第一个问题是开胃菜,不难。参加测试的六款AI模型并没有让小雷失望。他们都计算出了正确的答案,并给出了详细的推理过程。在测试中,所有的AI模型都得到了5分。(照片从左到右:DeepSeek、星火,豆包,讯飞,Kimi、文心一言,通义千问,下图同样)



虽然这个问题不难,但这六个AI模型的表现让小雷大放异彩。在测试AI大模型的数学计算能力之前,AI大模型很难计算出稍微复杂一点的问题的正确答案。


只有一轮测试,DeepSeek、讯飞星火,豆包,文心一言,Kimi、通义千问六大AI模型证明了他们的能力,有被高考学生作弊的概率。暂停图片识别问答功能绝不是为了蹭高考的热度。


第2题(6分):


若cos 2A cos 2B 2sin C=2,SΔABC=1/4,cos Acos Bsin C=四分之一,然后(正确答案:ACD)


A:sin C=sin²A sin²BB:AC² BC²=3C:AB=√2


D:sin A sin B=(√6)/2



这个问题相当困难。只有豆包在两分钟内计算出正确的答案。讯飞星火和通义千问需要一点时间,其他大型AI模型需要更长的时间,尤其是DeepSeek,耗时572秒,接近10分钟。



假如AI大模型像考生一样一次只做一道题,推理慢的三个AI大模型,有可能两个小时都做不完题。


虽然本轮测试中所有AI模型都正确回答了问题,但豆包、讯飞星火、通义千问结合推理所需时间表现良好。


第3题(5分):


如果一个等比数列的前4项和4项、前8项和68项,则该等比数列的公比为(正确答案:±2)



与前一个问题相比,这个问题的难度明显下降,讯飞星火,文心一言,Kimi、通义千问和DeepSeek五大模型都快速计算出正确答案,文心几乎每秒都在计算。豆包虽然计算出了正确的答案,但是在导出答案的时候却很迷茫,排除了-2。所以小雷要扣豆包三分,豆包只能得2分。



在这一轮测试中,DeepSeek服务器经常出现繁忙的问题,小雷不得不使用第三方应用程序。幸运的是,在这个阶段,许多AI应用程序已经访问了DeepSeek。无论是推理速度还是稳定性,小雷使用的腾讯元宝App都远高于DeepSeek网页版或App。


第4题(17分):


设数列{an}满足a₁=3,(an 1)/n=(an/(n 1)) (1/(n(n 1)))


(1)证实:{n an}是等差数列;(正确答案:n an是an=公差为1的等差数列)


(2)设f(x)=a₁X a₂X² a₃X³ ... amX^m,求f′(-2)。(正确答案:f′(-2)=(7/9)-(3m) 7)/9)·(-2^m))



前三个问题,几个AI应用在体验上只有一定的差异,能力基本没有区别。第四个问题不同,它的复杂性远远超过前三个问题,这也是检验AI模型能力最重要的挑战。


豆包,讯飞星火,在这一轮测试中,Kimi、文心一言,DeepSeek依然表现出色,正确计算了两个问题的答案。通义千问在回答这个问题的时候,可以推断出第一个小问题的答案,但是第二个小问题给出了错误的答案,表现稍逊一筹。



豆包,讯飞星火,文心一言,Kimi、DeepSeek可以在这一轮测试中得到17分的满分,通义千问因为答错了第二个小问题,只能得到7分。


依靠公式和逻辑判断的数学题似乎更符合AI的特点。然而,在多年的评价中,AI模型一般具有良好的阅读理解和写作效果,在复杂的数学题面前找不到答案思路。


光明。com在去年6月的一份报告中提到,复旦大学NLP试验数据显示,AI模型在2024年高考中的表现远强于数学,一些数学题AI模型甚至全军覆灭。没有一个能正确计算答案,遇到选择题的时候也经常出错。归根结底,数学失之千里,不能出一点小错误,文史类的内容可能会出现一些错误和比较模糊的答案。


一年过去了,AI模型进步很快,深度思维模式的加入,数学题的专项推广,让AI模型在处理高考数学题时更加得心应手。


比学霸更好,但是大模型的做题能力已经拉开了距离。


四个问题检测出来,最终得分如下:


  • DeepSeek:33分;
  • 讯飞星火:33分;
  • 豆包:30分;
  • Kimi:33分;
  • 文心一言:33分;
  • 通义千问:23分。

经过测试,DeepSeek、讯飞星火、Kimi、文心一言全意得满分,豆包表现不错。因为一时的疏忽,他丢了三分,错过了高考状元。通义千问在计算简单问题时,保持了很高的水平,但在处理困难问题时出现了计算误差,需要再接再厉。



苹果总是给AI行业泼冷水,日前在文章中表示,AI推理模式只是AI推理模式。「假思考」,没有一个稳定可理解的推理过程,更像是记忆,在处理复杂任务时可能会崩溃。Lisan,AI研究者。 al 复制苹果测试方法后,Gaib表示,该模型并非因为推理能力差而失败,而是因为苹果限制了token的导出。


也许AI模型的推理能力还有上限,但是我们可以看到它们的进步。去年复旦大学NLP实验室测试AI模型时,他们在高考数学题面前表现不佳,小雷在几次AI模型横向测试中也取得了类似的成绩。在今年的测试中,AI大模型基本上可以计算出问题的正确答案,曾经难倒AI大模型的多选题,也没有再给AI大模型带来麻烦。


随着AI模型数学题答题技巧的提高,受益最大的可能是学生群体。国内学习机厂商和教育辅导平台相继增加了AI解题能力,但很多设备的AI模型只能回答中小学问题,比如行业龙头猿搜题,题库不包括大学课程。


六大AI模型的出色表现,证明了国内头部AI企业的实力,高考数学题已经被吸引,高数也不远了。学习机器制造商、教辅平台可与头部AI公司合作,提高AI回答商品的能力,继续加强AI教育硬件业务。


本文来源于“雷科技”,36氪经授权转载。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com