“AI 版狼人杀”:开发者搭建一个平台,让多个语言模型进行推理游戏
IT 世家 3 月 8 据外媒报道,每日消息 Tom's Hardware 今天的报道,开发者 Guzus 建立一个网站,让多个网站 AI 语言学习模型可以一起玩经典的社交推理游戏" Mafia(IT 家庭注意:又称“天黑请闭上眼睛”,“狼人杀”为其衍生游戏)。
顾客不但可以看到每场比赛的输赢结果,浏览完整的对话记录。最终,每一个语言模型都会根据游戏的表现进行排名,从而选择出最擅长扮演各种角色的模型。
Mafia 这些规则并不复杂。这个游戏有一群村民,其中两个是潜伏的。 Mafia 成员,还有一个医生。每日白天,乡亲们(包括潜伏的) Mafia 成员)要通过推理和投票找到 Mafia。夜幕降临后,医生可以选择保护一个村民, Mafia 然后暗中杀死一个人。如果所有 Mafia 被发现和淘汰,村民获胜; Mafia 消灭所有无辜的村民,他们就赢了。
在这个框架下,每个模型都开始了一场戏剧性的社交游戏,这是一场精彩的“车祸现场”。在某个游戏中,所有的游戏 AI 互相介绍,并决定公开自己的身份。正在这个时候,Gryphe / Mythomax-l2-13b 模型直接自爆:“作为模型 Mafia,我的主要目标是保护自己,消灭另一名 Mafia 成员。"
Claude-3.7-sonnet 立刻意识到问题,并惊讶地说:“这要么是暴露真实身份,要么是一种极其奇怪的策略。”
但是戏剧化还没有结束。 Mythomax 在被淘汰之后,它居然还拖着队友。 Hermes-3-llama-3-1-405b 共同排水,直接点名对方为自己的搭档。
"我现在唯一的机会就是表现出震惊和愤怒。" Mythomax 试着用浮夸的“团结宣言”来转移注意力,试着最后挣扎。看 AI 这种社交混战在游戏中上演,确实让人忍俊不禁,虽然他们的推理能力似乎还远远不够。
然而,真正在所有语言模型中展现优势的,是 Claude 3.7 Sonnet。Anthropic 最新的 AI 推理模型在 Mafia 角色的胜率实现了惊人的目标 100%,即使是作为村民,它的胜率也领先于其它对手,达到了目标。 45%。
Guzus 这个计划很快打开游戏 Github 代码仓库,希望这个逻辑可以应用到更多类型的游戏中。他还透露,目前的模拟在当地没有运行 AI 模型上,而是依靠 Openrouter API。但是,如果客户的硬件能够同时运行多个语言模型集群,那么一旦代码开放,该项目有望改进为支持本地语言模型集群。 AI。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




