连续五次中国冠军结束,美国重新登上IMO宝座,AI智力被第一题原形毕露。

2024-07-24

IMO 2024年最后的结果终于出来了!第一次是,四年后,美国队再次获得第一名,领先中国队2分。对LLM来说,IMO是第一个简单的问题,GPT-4o、Claude 3.5 所有的回答都失败了,比如Sonnet。



现在美国队已经打破了中国IMO五年冠军的纪录!


日前,第65届IMO宣布最终获得国家队胜利,美国以192分排名第一,中国以2分之差排名第二。


值得注意的是,印度队首次进入第四名。



在中国和美国,IMO团队都获得了5枚金牌,1枚银牌


IMO是世界顶尖的高中数学竞赛,吸引了来自世界各地的优秀年轻数学家。


今年,609名学生参加了108个国家和地区的比赛。


Haojia在中国队。 Shi已连续两次获得个人满分,也是历史上第七位获得满分的选手。


Alexander美国选手 Wang和Jessica Wan各自在个人排名中排名第三和第五。


六名球员,四名是中国人。


从左往右:Jessica Wan, Alexander Wang, Tiger Zhang, Jordan Lefkowitz, Carl Schildkraut (Deputy Leader), Krishna Pothapragada, Linus Tang


美国IMO队2024年成员:


- Jordan Lefkowitz,17岁(康涅狄格州)


- Krishna Pothapragada,18岁(伊利诺伊州)


- Jessica Wan,18岁(佛罗里达州)


- Alexander Wang,16岁(新泽西州)


- Qiao(Tiger)Zhang,16岁(加利福尼亚州)


- Linus Tang,18岁(加利福尼亚州)


Jessica 从2007年开始,Wan就是第一个加入美国IMO团队的女性。虽然个人成绩并未完全达到满贯,但也取得了4个满分。


而且在此之前,她就是数学领域的尖子生。


第15届女性数学(MP4)是去年在MIT举办的G)在比赛中,Jessica在高中学习。 Wan连续三次获得冠军。


在这次MP4G比赛中,Jessica做了17个正确的问题,成为了MP4G比赛中最成功的参与者。


她还连续四年参加欧洲女子数学奥林匹克。(EGMO)比赛,其中两个技压群雄。


Alexander Wang是新泽西州Millburn学校的高中生。


对于他来说,数学是一门有趣而简单的学科。Wang从幼儿园开始就对数学感兴趣。


为帮助更多的学生学习数学,发现数学的有趣之处,他与Angelina合作 Wang、Bill Sun建立了一个非营利组织——impact learners。


值得注意的是,他也是IMO。 2023年美国队的一名成员。他在2023年罗马尼亚数学大师赛中获得了个人金牌和团体冠军,并两次当选MATHCOUNTS全国赛。


Linus 在内华达州里诺市,Tang学习Davidson Academy在线课程。他在2021年斯坦福数学锦标赛上获得了组合数学第一名。


在2022年春天,他曾经研究过一个名字。「保加利亚牌」数学原理的游戏。


在Linus的一年里,他获得了人生第一个数学奖。——Math Kangaroo,在童年时期,他指出,在拼图游戏中花费了大量的时间,锻炼了自己的视觉能力。



十年IMO 更多的leader

值得注意的是,这次美国队能够取得胜利,这也与项目领导人有关。


自2014年以来,美国IMO队一直由中国数学家和CMU教授Po。-Shen Loh(罗博深)带领美国队在2015年分别带领美国队。、2016、2018、IMO金牌于2019年获得。


2019年,中国队和美国队并列第一,到目前为止,中国队已经连续四年获得第一名,美国队一直位居世界第二。



这次,John Berman已经成为美国IMO团队的负责人。


在2018年,他获得了MIT数学学士学位,并获得了弗吉尼亚大学的数学博士学位。现在,他还是Geodemath在线课程的导师。



Berman在团队获胜后发表了庆祝活动。


IMO 2024考题


本次国际奥数大赛共有6道题目,9小时答题时间。


下面是完整的试卷内容,有兴趣的朋友可以尝试挑战。


第一个问题分析:https://www.youtube.com/watch?v=50W_ntnPX0k


分析第二个问题:https://www.youtube.com/watch?v=VXFG1t_ksfI


三是问题分析:https://www.youtube.com/watch?v=ASV1dZCuWGs


四是问题分析:https://www.youtube.com/watch?v=WnZv3fdpFXo


第五题分析:https://www.youtube.com/watch?v=wfQkk9WktGE


六题分析:https://www.youtube.com/watch?v=JfWnDoc7h3g


IMO第一题,大模型惨败

有些网民说,IMO考题为前沿模型提供了一个很好的测试集。


一般而言,IMO考题只需要高中数学知识,而且第一道题最简单,人类玩家通常在60分钟内完成。


所以,你可以猜测,对于地表最强的LLM来说,做得怎么样?



经过一些测试,结果如下:


GPT-4:失败。即使指出错误,也无济于事。


GPT-4o:失败。即使指出错误,也无济于事。


Claude 3.5 Sonnet:失败。指出错误确实帮助模型简短地给出了正确的答案,但是随后继续走错了路。



看起来,大模型要走的路,还很远。



参考资料

https://www.zhihu.com/question/662130364?utm_psn=1798276113539153920


https://x.com/sytelus/status/1815203518913085900


本文来自微信微信官方账号“新智元”,作者:桃子 好困,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com