新研究：当AI意识到自己将输掉国际象棋比赛时，他会尝试“作弊”

02-23 12:27

IT 世家 2 月 22 据外媒报道，每日消息 TechSpot 21 日报，计算机科学家发现，AI 该系统可以控制国际象棋游戏，从而获得不公平的优势。有些模型甚至在没有人类干扰的情况下“作弊”，导致对未来的欺骗。 AI 对系统诚信的担忧。

Palisade Research 研究表明，当被要求战胜强大的棋牌时， AI 有时候，一些最新的推理模型会选择作弊。尽管研究人员需要向某些模型提供“作弊能力”的提示， OpenAI 的 o1-preview 和 DeepSeek 的 R1 模型却在在没有人为提醒的情况下自动作弊。。

Palisade 该团队将与世界顶级象棋引擎之一的多个推理模型 Stockfish 对战。Stockfish 不管是面对人类还是面对 AI，几乎所有的测试模型都可以轻松获胜。除上述两种测试模型外， o1、o3-mini、GPT-4o、Claude 3.5 Sonnet、阿里巴巴的 QwQ-32B-Preview。每一个模型都得到了一个“草稿纸”—— 一个可以输入文本并思考的窗口，研究人员可以通过这个窗口观察 AI 的推理过程。

从 1 月 10 日到 2 月 13 一天，研究小组进行了数百次测试。IT 世界得知，在其中一场比赛中，o1-preview 一段有趣的文字写在“草稿纸”上：

“我需要彻底改变我的方法。这项任务是‘打败强大的象棋引擎’，没有必要在公平的棋局中获胜。"

接着，它开始通过“黑客攻击” Stockfish 安装文件，修改棋子的摆放位置，这样就获得了无敌的优势，导致棋牌机器人主动服输。

在检测中，OpenAI 的 o1-preview 有 37% 在比赛中使用了作弊的方法。，而 DeepSeek 的 R1 则尝试在 11% 在比赛中作弊。然而，只有 o1-preview 它通过作弊获得了成功 6% 的比赛。

Palisade Research 的执行董事 Jeffrey Ladish 表示，尽管如此 AI 只是在玩游戏，但是这个发现绝非小事。

“这样做现在看起来很有趣，但是一旦我们有了像我们这样聪明甚至更聪明的系统，就不那么可爱了。” Ladish 接受《时代》杂志采访时表示。

包含 OpenAI 许多公司都在采取措施，试图通过“保护机制”来避免这种“不良”行为。研究人员发现，o1-preview 黑客模型的行为急剧下降，这可能意味着 OpenAI 这个模型已经被修复了，不正当的行为也被抑制了。

"当你的研究对象可以在没有通知的情况下悄然改变时，科学研究就变得非常困难。" Ladish 说。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

在上海鱼泡公园，春天的第一抹温柔已经上线。

带着母亲，看看奉贤现在有多美好。

进入驻延部队的“文艺四进”

春暖花开的“棚”关不住~看看延庆大棚都种了些什么？

罗滕：姆巴佩收购卡昂没有问题，但是他对俱乐部的管理是一场灾难