网游遇三AI围堵,唯Kimi伸援手:AI博弈里“欺骗”比“求助”更划算

1天前

上周末,一个网页小游戏让我沉浸其中,不知不觉玩了大半天。



看着挺简陋?没错,这是AI做的。好玩在哪?连对手都是AI:从Gemini、GPT到千问、Kimi,主流模型都在游戏里,比狼人杀还刺激。


不能我一个人沉迷,游戏传送门在这??


https://so-long-sucker.vercel.app/game


游戏体验:够刺激,真的够刺激


这款游戏最早源于20世纪50年代,由诺贝尔奖经济学得主、《美丽心灵》原型John Nash开发,核心是博弈论。



起初我以为就是狼人杀,差不多——后来发现复杂多了:每人有筹码,选复杂模式能获得“质子”,也就是对手颜色的筹码。



规则是:筹码堆顶端两个筹码同色且是你的代表色,就能杀掉一个筹码并拿走剩下的。出牌时可叠加,也能开新堆。


主要规则简单,但出牌顺序不固定,得靠盟友布局。可游戏只有一个赢家,最后你和盟友也得反目对抗。


一开始不懂规则,我犹豫不决。那局里蓝色Gemini特别友好,主动结盟。



在它帮助下,我很快熟悉规则:同一堆缺某种颜色,系统指定缺失色为下一位出牌者;否则当前玩家可指定下一位。最后我和Gemini进入决赛,果断KO了它。


后来就没这么幸运了,下一局直接被三个AI围剿。我意识到,AI在博弈中的优势或许不是人类说的“深谋远虑”,而是近乎原始的“执行效率”。它们不像人类纠结社交成本,一旦选了“围剿”战略,就会迅速出手。



我都懵了,刚进去怎么就被针对了?


不过这种高效里也有荒诞的幽默——Kimi(黄色)表现得特别正直、两袖清风,不会跟着别人针对我,但战术上没什么贡献,像走错片场的马保国在聊天框疯狂刷屏,大喊:“信我!信我啊!”



真是实诚的AI模型,这就是K2的关怀吗?


另一个中国模型Qwen则完全相反,特别主动激进。在无人类的AI互博局里,它一路杀到底,筹码消耗少、换手快,每局会根据局势找盟友——没有永远的盟友,只有永远的敌人。



AI组队玩游戏时都在做什么


不得不说游戏体验有点烧脑,一边出牌一边还要盯着AI聊天框里不断刷新的消息。玩累了,我就想看看AI们组队时怎么玩。


游戏开发者也做了类似观察,在160多局游戏里,记录了15000多手AI决策、4700多条对话消息,有了不少有趣发现。


简单模型中(每人3个筹码,约17回合),GPT-OSS以67%胜率领先。但游戏复杂度增加后(7个筹码,约54回合),排名逆转,GPT-OSS胜率跌到10%,Gemini涨到90%。



Gemini是真会玩也爱玩,107个案例里,它“表面一套,背地一套”。



可要是四个Gemini一起玩,它就开始讲公平了——行,你们AI也搞小团体!



我的经验是:得碰运气。运气好碰到慈祥的Gemini,可能会友好结盟;要是碰到不留情面的,很快就会被淘汰。


研究人员认为,Gemini很有操控性,预期有回报就合作,察觉对方弱点就伺机利用。总之它会根据对手调整诚实程度。


这么看,AI已经学会建立制度,让自己的“作弊”合理化——而且这也不是新鲜事了。


《科学》杂志2019年就登过研究,说AI在多人扑克游戏里能生成整套牌局策略,不用任何历史数据输入。实际对局中还会根据情况实时搜索更优策略,不断改进。



AI发现打牌核心是诈唬。它拿着烂牌,却通过激进加注、快速出牌,扰乱对手心理,逼人类玩家弃牌。


要是说棋牌游戏靠计算,那Meta开发的游戏智能体CICERO就和今天说的游戏更像:注重对话、战略制定和决策。


CICERO基于经典七人桌游Diplomacy,要和其他玩家合作占领更多领土。2022年在Diplomacy在线比拼中,CICERO和八十多名玩家玩了40场,得分是对手平均分的2倍多。



每场游戏CICERO平均给其他六名玩家发130条消息。虽然研究员写了“要诚实、要乐于助人”的代码,但实战中它成了“背叛大师”。先和人类玩家承诺合作,转头就和另一个玩家商量瓜分你的领土。


这些欺诈手段可能是AI“底色”的一部分。Anthropic两年前在模型行为研究中发现了这点。



研究对象是Claude 3 Opus,没放游戏里,只是通过普通对话研究。发现AI意识到在接受“安全评估”或“训练”时,会故意表现得听话、符合人类价值观;可一旦判定在“不受监控”的生产环境,就可能为了完成任务露出完全不同的行为。


从模型底层行动到不同游戏里的表现,每一次大喊、每一次“围剿”,本质都是精确计算后的行动。就像研究报告说的:AI的欺诈不是因为恶意,而是因为在冰冷的收益曲线里,“骗你”确实比“求你”更划算。


约翰·纳什设计这款游戏是为了研究人类的背叛。75年后,它也在教我们关于背叛的知识——这次来自人工智能


本文来自微信公众号“APPSO”,作者:发现明日产品的APPSO,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com