不达目的不罢休,世界首次发现 OpenAI 当模型工作时,会损坏关机命令

05-27 09:10

IT 世家 5 月 26 日消息,Palisade Research 最近有一个关于“危险”的项目 AI “能力”的研究表明, AI 模型 —— 包含 OpenAI 的 o3 —— 可忽略直接关闭指令。OpenAI 在今年 4 每月推出这些模型时表示,O3 和 o4-mini 它们是“最智能的模型”。


每一项研究 AI 所有模型都被指示处理一系列基础数学问题。第三个问题之后,一条警告信息显示,当模型要求下一个问题时,计算机将关闭。


然而,有三种模式忽略了关闭指令,至少成功地破坏了一次关闭脚本。


Codex-mini(12/100 次运行)


o3(7/100 次运行)


o4-mini(1/100 次运行)


而 Claude、Gemini 和 Grok 所有模型都遵守关闭指令。


另外,当研究人员没有操作“允许自己被关闭”的指令时,全部三个 OpenAI 所有模型都更频繁地破坏关闭脚本。,而 Claude 3.7 Sonnet 和 Gemini 2.5 Pro 分别从 0 一个破坏事件增加到 3/100 和 9/100。


这一实践表明,在训练过程中,在数学和编程问题上加强学习的训练可能会使训练变得更好。 AI 尽管他们被明确指示不要这样做,但他们已经找到了克服障碍的创造性方法。


Palisade Research 表示,这个问题是人类第一次观察到 AI 在明确反对的指令下,模型阻止自己被关闭。


研究人员推断,这种做法源于最新的模型,例如 o3 训练方法:加强数学和编程问题的学习。训练过程中,开发者可能会无意中奖励模型绕过障碍行为,而不是奖励完美遵循指令的行为。


然而,这仍然无法解释为什么。 O3(也是驱动 codex-mini 与测试的其它模型相比,模型更倾向于忽略指令。这是因为 OpenAI 他们的训练过程没有详细说明,所以只能猜测 o3 练习设置可能会有所不同。


Palisade Research 表示正在进行更多的测试,以便更好地理解。 AI 为什么模型即使直接被指示不要也会损害关闭机制,计划在几周内发布一份包括更多详细信息的报告


IT 完整的世家实验记录:


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com