连续五次中国冠军结束,美国重新登上IMO宝座,AI智力被第一题原形毕露。
IMO 2024年最后的结果终于出来了!第一次是,四年后,美国队再次获得第一名,领先中国队2分。对LLM来说,IMO是第一个简单的问题,GPT-4o、Claude 3.5 所有的回答都失败了,比如Sonnet。
现在美国队已经打破了中国IMO五年冠军的纪录!
日前,第65届IMO宣布最终获得国家队胜利,美国以192分排名第一,中国以2分之差排名第二。
值得注意的是,印度队首次进入第四名。

在中国和美国,IMO团队都获得了5枚金牌,1枚银牌
IMO是世界顶尖的高中数学竞赛,吸引了来自世界各地的优秀年轻数学家。
今年,609名学生参加了108个国家和地区的比赛。
Haojia在中国队。 Shi已连续两次获得个人满分,也是历史上第七位获得满分的选手。
Alexander美国选手 Wang和Jessica Wan各自在个人排名中排名第三和第五。
六名球员,四名是中国人。
从左往右:Jessica Wan, Alexander Wang, Tiger Zhang, Jordan Lefkowitz, Carl Schildkraut (Deputy Leader), Krishna Pothapragada, Linus Tang
美国IMO队2024年成员:
- Jordan Lefkowitz,17岁(康涅狄格州)
- Krishna Pothapragada,18岁(伊利诺伊州)
- Jessica Wan,18岁(佛罗里达州)
- Alexander Wang,16岁(新泽西州)
- Qiao(Tiger)Zhang,16岁(加利福尼亚州)
- Linus Tang,18岁(加利福尼亚州)
Jessica 从2007年开始,Wan就是第一个加入美国IMO团队的女性。虽然个人成绩并未完全达到满贯,但也取得了4个满分。
而且在此之前,她就是数学领域的尖子生。
第15届女性数学(MP4)是去年在MIT举办的G)在比赛中,Jessica在高中学习。 Wan连续三次获得冠军。
在这次MP4G比赛中,Jessica做了17个正确的问题,成为了MP4G比赛中最成功的参与者。
她还连续四年参加欧洲女子数学奥林匹克。(EGMO)比赛,其中两个技压群雄。
Alexander Wang是新泽西州Millburn学校的高中生。
对于他来说,数学是一门有趣而简单的学科。Wang从幼儿园开始就对数学感兴趣。
为帮助更多的学生学习数学,发现数学的有趣之处,他与Angelina合作 Wang、Bill Sun建立了一个非营利组织——impact learners。
值得注意的是,他也是IMO。 2023年美国队的一名成员。他在2023年罗马尼亚数学大师赛中获得了个人金牌和团体冠军,并两次当选MATHCOUNTS全国赛。
Linus 在内华达州里诺市,Tang学习Davidson Academy在线课程。他在2021年斯坦福数学锦标赛上获得了组合数学第一名。
在2022年春天,他曾经研究过一个名字。「保加利亚牌」数学原理的游戏。
在Linus的一年里,他获得了人生第一个数学奖。——Math Kangaroo,在童年时期,他指出,在拼图游戏中花费了大量的时间,锻炼了自己的视觉能力。

十年IMO 更多的leader
值得注意的是,这次美国队能够取得胜利,这也与项目领导人有关。
自2014年以来,美国IMO队一直由中国数学家和CMU教授Po。-Shen Loh(罗博深)带领美国队在2015年分别带领美国队。、2016、2018、IMO金牌于2019年获得。
2019年,中国队和美国队并列第一,到目前为止,中国队已经连续四年获得第一名,美国队一直位居世界第二。

这次,John Berman已经成为美国IMO团队的负责人。
在2018年,他获得了MIT数学学士学位,并获得了弗吉尼亚大学的数学博士学位。现在,他还是Geodemath在线课程的导师。

Berman在团队获胜后发表了庆祝活动。
IMO 2024考题
本次国际奥数大赛共有6道题目,9小时答题时间。
下面是完整的试卷内容,有兴趣的朋友可以尝试挑战。
第一个问题分析:https://www.youtube.com/watch?v=50W_ntnPX0k
分析第二个问题:https://www.youtube.com/watch?v=VXFG1t_ksfI
三是问题分析:https://www.youtube.com/watch?v=ASV1dZCuWGs
四是问题分析:https://www.youtube.com/watch?v=WnZv3fdpFXo
第五题分析:https://www.youtube.com/watch?v=wfQkk9WktGE
六题分析:https://www.youtube.com/watch?v=JfWnDoc7h3g
IMO第一题,大模型惨败
有些网民说,IMO考题为前沿模型提供了一个很好的测试集。
一般而言,IMO考题只需要高中数学知识,而且第一道题最简单,人类玩家通常在60分钟内完成。
所以,你可以猜测,对于地表最强的LLM来说,做得怎么样?

经过一些测试,结果如下:
GPT-4:失败。即使指出错误,也无济于事。
GPT-4o:失败。即使指出错误,也无济于事。
Claude 3.5 Sonnet:失败。指出错误确实帮助模型简短地给出了正确的答案,但是随后继续走错了路。
看起来,大模型要走的路,还很远。

参考资料
https://www.zhihu.com/question/662130364?utm_psn=1798276113539153920
https://x.com/sytelus/status/1815203518913085900
本文来自微信微信官方账号“新智元”,作者:桃子 好困,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




