AI跑分意义渐失,谷歌提议让AI玩游戏一决高下

08-13 06:30
AI具备出色的游戏能力,实际上蕴含着极高的商业化潜力。

时隔八年,在生成式人工智能诞生之后,谷歌再度举办了“AI棋王争霸赛”。OpenAI o4 - mini、DeepSeek - R1、谷歌Gemini 2.5 Pro、Anthropic Claude Opus 4、xAI Grok 4、Kimi K2 Instruct等中美AI业界的顶尖模型将两两对决。



据谷歌介绍,此次比赛旨在通过策略游戏中的正面较量,评估并推动AI模型在复杂推理和决策能力方面的进步,以解决现有基准测试难以跟上模型发展速度的问题。同时,举办此次赛事也是为了宣传其全新的、公开的基准测试平台Kaggle Game Arena。



与常规的AI基准测试不同,Kaggle Game Arena的测试题目是“策略游戏”。谷歌推出让AI玩游戏的平台,是因为传统的AI基准测试已陷入困境,难以反映旗舰模型的真实能力。简单来讲,部分AI厂商为了名利,将各种AI基准测试弄得乌烟瘴气,所以谷歌作为业界巨头,选择站出来纠正这一现象。


在这一轮AI热潮中,“钱变得不值钱”是一个独特的现象。以往,独角兽企业指的是成立时间短、估值超10亿美元且未上市的科技创新企业。但现在,只要创始人有一定技术背景,一家AI初创企业拿到10亿美元估值轻而易举。


甚至出现了Builder.ai这种宣称人工智能编程,实则靠印度程序员手写代码的骗子公司。金融业对此现象的解释是,他们对AI革命可能带来的机遇存在“错失恐惧”(FOMO),这促使他们大量投资各类看似靠谱的AI公司,从而造就了AI领域的非理性繁荣。



如此一来,创业者利用投资市场的AI FOMO情绪抬高公司估值也在情理之中。那么,如何让AI初创公司更具价值呢?由于当下AI技术高深,投资者判断AI公司实力的方法很简单,就是看跑分,跑分高的就是优质标的。


“不服跑个分”成了AI企业宣传产品的核心手段。如果经常关注AI消息,对LMArena基准测试、大模型竞技场Chatbot Arena等榜单肯定不陌生。当跑分成绩与融资挂钩,“刷榜”现象就出现了。



目前市面上评测大模型能力的基准测试多种多样,主要涉及知识推理、数学和编程。以知名AI开源社区HuggingFace出品的榜单为例,主要评测大模型遵循指令的能力以及在长文本中进行多步骤推理的能力等。


和PC上的3DMark、手机上的安兔兔一样,AI基准测试通过设定一系列客观且可复现的场景,来测试AI模型在不同领域的能力。但为了保证可复现和一致性,AI基准测试缺乏灵活性,这就为“刷榜”提供了空间。AI模型可以通过记忆能力记住基准测试数据集中的题目,然后针对性训练,从而获得高分。



例如,在GSM8K、MATH等测试AI模型数学能力的测试集中,GPT - 4o、Gemini 1.5 Pro等模型常常能获得80%以上的超高正确率,甚至还出现了基准测试方配合AI厂商刷榜的情况。今年春季,Meta的新一代开源模型Llama 4就出现了跑分领先但实际表现不佳的情况。有AI研究人员发现,Llama4在发布前针对大模型竞技场Chatbot Arena测试了27个不同版本,却只公布了最佳成绩。


由此可见,基准测试越来越难以衡量AI模型,尤其是最先进的“State - of - the - Art”模型。因此,谷歌开发了Kaggle Game Arena,并举办“AI国际象棋棋王争霸赛”,为各大厂商的旗舰模型提供展示实力的舞台。



为何谷歌选择游戏作为测试大模型能力的场景呢?他们认为,游戏在既定规则下具有随机性,非常适合衡量AI的智能。明确的规则能约束AI,使其不会偏离方向,而足够强的随机性又能让AI展现出能力上限。此外,游戏还具备结果可衡量、过程可视化、推理可验证以及零和博弈的特点。


实际上,游戏与AI业界关系密切。以OpenAI为例,普通人是因为ChatGPT而熟知它,而《DOTA2》玩家早在2019年就对OpenAI印象深刻。当时,OpenAI的OpenAI Five程序轻松击败冠军战队OG,初步证明AI不仅能在棋类对弈中取胜,在更复杂的电子竞技游戏中也能战胜人类。



据前OpenAI首席科学家Ilya Sutskever与黄仁勋对话所言,通过为《DOTA2》开发OpenAI Five,OpenAI的训练模式从“强化学习”转变为“基于人类反馈的强化学习(RLHF)”,这正是ChatGPT比以往AI产品更智能的关键。


如果AI能在游戏中表现出色,不仅能证明其智能水平,还具有极高的商业化前景。要知道,游戏厂商一直渴望获得更智能的NPC来提升玩家体验。


【本文图片来自网络 】


本文来自微信公众号 “三易生活”(ID:IT - 3eLife),作者:三易菌,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com