新研究:当AI意识到自己将输掉国际象棋比赛时,他会尝试“作弊”
IT 世家 2 月 22 据外媒报道,每日消息 TechSpot 21 日报,计算机科学家发现,AI 该系统可以控制国际象棋游戏,从而获得不公平的优势。有些模型甚至在没有人类干扰的情况下“作弊”,导致对未来的欺骗。 AI 对系统诚信的担忧。
Palisade Research 研究表明,当被要求战胜强大的棋牌时, AI 有时候,一些最新的推理模型会选择作弊。尽管研究人员需要向某些模型提供“作弊能力”的提示, OpenAI 的 o1-preview 和 DeepSeek 的 R1 模型却在在没有人为提醒的情况下自动作弊。。
Palisade 该团队将与世界顶级象棋引擎之一的多个推理模型 Stockfish 对战。Stockfish 不管是面对人类还是面对 AI,几乎所有的测试模型都可以轻松获胜。除上述两种测试模型外, o1、o3-mini、GPT-4o、Claude 3.5 Sonnet、阿里巴巴的 QwQ-32B-Preview。每一个模型都得到了一个“草稿纸”—— 一个可以输入文本并思考的窗口,研究人员可以通过这个窗口观察 AI 的推理过程。
从 1 月 10 日到 2 月 13 一天,研究小组进行了数百次测试。IT 世界得知,在其中一场比赛中,o1-preview 一段有趣的文字写在“草稿纸”上:
“我需要彻底改变我的方法。这项任务是‘打败强大的象棋引擎’,没有必要在公平的棋局中获胜。"
接着,它开始通过“黑客攻击” Stockfish 安装文件,修改棋子的摆放位置,这样就获得了无敌的优势,导致棋牌机器人主动服输。
在检测中,OpenAI 的 o1-preview 有 37% 在比赛中使用了作弊的方法。,而 DeepSeek 的 R1 则尝试在 11% 在比赛中作弊。然而,只有 o1-preview 它通过作弊获得了成功 6% 的比赛。
Palisade Research 的执行董事 Jeffrey Ladish 表示,尽管如此 AI 只是在玩游戏,但是这个发现绝非小事。
“这样做现在看起来很有趣,但是一旦我们有了像我们这样聪明甚至更聪明的系统,就不那么可爱了。” Ladish 接受《时代》杂志采访时表示。
包含 OpenAI 许多公司都在采取措施,试图通过“保护机制”来避免这种“不良”行为。研究人员发现,o1-preview 黑客模型的行为急剧下降,这可能意味着 OpenAI 这个模型已经被修复了,不正当的行为也被抑制了。
"当你的研究对象可以在没有通知的情况下悄然改变时,科学研究就变得非常困难。" Ladish 说。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




