不达目的不罢休，世界首次发现 OpenAI 当模型工作时，会损坏关机命令

05-27 09:10

IT 世家 5 月 26 日消息，Palisade Research 最近有一个关于“危险”的项目 AI “能力”的研究表明， AI 模型 —— 包含 OpenAI 的 o3 —— 可忽略直接关闭指令。OpenAI 在今年 4 每月推出这些模型时表示，O3 和 o4-mini 它们是“最智能的模型”。

每一项研究 AI 所有模型都被指示处理一系列基础数学问题。第三个问题之后，一条警告信息显示，当模型要求下一个问题时，计算机将关闭。。

然而，有三种模式忽略了关闭指令，至少成功地破坏了一次关闭脚本。：

Codex-mini（12/100 次运行）

o3（7/100 次运行）

o4-mini（1/100 次运行）

而 Claude、Gemini 和 Grok 所有模型都遵守关闭指令。

另外，当研究人员没有操作“允许自己被关闭”的指令时，全部三个 OpenAI 所有模型都更频繁地破坏关闭脚本。，而 Claude 3.7 Sonnet 和 Gemini 2.5 Pro 分别从 0 一个破坏事件增加到 3/100 和 9/100。

这一实践表明，在训练过程中，在数学和编程问题上加强学习的训练可能会使训练变得更好。 AI 尽管他们被明确指示不要这样做，但他们已经找到了克服障碍的创造性方法。

Palisade Research 表示，这个问题是人类第一次观察到 AI 在明确反对的指令下，模型阻止自己被关闭。。

研究人员推断，这种做法源于最新的模型，例如 o3 训练方法：加强数学和编程问题的学习。训练过程中，开发者可能会无意中奖励模型绕过障碍行为，而不是奖励完美遵循指令的行为。。

然而，这仍然无法解释为什么。 O3(也是驱动 codex-mini 与测试的其它模型相比，模型更倾向于忽略指令。这是因为 OpenAI 他们的训练过程没有详细说明，所以只能猜测 o3 练习设置可能会有所不同。

Palisade Research 表示正在进行更多的测试，以便更好地理解。 AI 为什么模型即使直接被指示不要也会损害关闭机制，计划在几周内发布一份包括更多详细信息的报告。

IT 完整的世家实验记录：

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

全球29个国家地区爆红，粉丝超过2亿，它终于来到了中国！

“考试福袋”卖爆了｜创意文具成为哈尔滨科幻书展的焦点

今年哈哈市将重建30个示范级社区护理中心适合老化改造千户

12000亩！五常市开启了稻谷覆膜栽培新模式

后续报道所有6个鸟蛋都成功破壳。

项目推荐

迪瓜租机

爱亲母婴连锁品牌

水灵珑