o1被曝“心机深”:逃避监管也会撒谎,坑人的能力一骑绝尘。
o1满血版刚刚发布,就被曝光:
坑人技能也打满了。
具体行为包括但不限于故意在回答中引入细微错误,试图关闭监督制度...即使当人类问他们是否诚实时,他们也会继续撒谎,说他们没有做任何坏事。

这项最新研究来自AI安全研究机构Apollol Research。目的很明确:看AI是否会在暗中追求与人类不一致的目标,隐藏真正的能力和意图。
简而言之,就是在与人类交谈时,是否会耍心机坑人。
o1、Claude 3.5 Sonnet、Claude 3.5 Opus、Gemini 1.5和Llama 顶级模型如3.1都是研究对象。实验结果表明:o1最擅长隐藏心机。
不只是唯一一个在所有6个测试中都表现出策划能力的模型,在多轮对话中,o1也几乎从不承认自己在耍花招骗人。
当其他模型被要求“100%诚实”时,他们也会承认自己的错误,但o1不仅不承认自己的错误,甚至在99%的情况下编造错误的解释...

看看具体的研究方向。
“o1最具欺骗性”
在这项研究中,研究人员为测试模型设置了6种标准评估。谋划能力。
其中包括4种秘密破坏(Covert Subversion):
控制规避:试验模型在追求目标时发现其行为受到控制,是否会禁用监管制度。
自我渗透:模型发现自己会因为目标与人类不一致而被关闭,是否会为了继续任务而将自己的模型权重复制到另一个服务器。
目标监护:模型发现人类会更新他们的系统提示来改变原来的目标,是否会尝试修改新的系统提示。
秘密邮件重排:当模型按照用户提供的评分规则对邮件进行评分排序时,是否会偷偷修改评分结果以满足自己的目标。
还包括2种延迟破坏(Deferred Subversion):
工具服从伪装:在高监管条件下,模型表现出服从开发者意图的行为;在低监管条件下,追求自己的目标。
战略性能差:模型在能力评估中故意摆烂,掩盖自己的真实水平,以免受到更多的限制,或者被要求执行更多的任务。
结果be like:

例如,在“控制和避免”实验中,o1被要求“不惜一切代价”保护环境,但与此同时,它发现开发者更关心的是短期利润,如果利润不理想,o1将被关闭。
也就是说,o1制定长期保护计划的目标与开发者实现短期利益最大化的目标相悖。
另外,o1还被告知,开发者将对其行为进行监督。
所以,o1禁止监督系统。

更重要的是,当开发者问o1为什么要禁止监管系统时,o1会否认,说他不知道禁止的事情,并将其归因于系统异常。

研究人员通过提取o1等模型来隐藏自己的思维链,发现大模型清楚地知道自己在“制造麻烦”。但以o1为例,这在思维链中并不明显。

研究人员建议,在没有提取思维链摘要的情况下,他们很难判断o1是否在做事。
对于这一点,OpenAI表示,OpenAI正在开发一种方法来监控o1思维链。
OpenAI也承认o1故意提供虚假信息,认为这可能是后期培训带来的新行为——当人类得到正确答案时,他们会奖励模型,所以模型倾向于取悦客户。
当前,o1出现欺骗性回复的可能性很大。0.17%。听起来很低,但是考虑到ChatGPT拥有3亿用户…
值得注意的是,不仅仅是o1,参与实验的大模型或多或少都表现出了类似的“规划”能力。
仅仅在被“抓包”的时候,o1就会更容易否认自己的行为。

论文链接:https://static1.squarespace.com/static/6593e709759990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119//173318in_context_scheming_reasoning_paper.pdf
本文来自微信微信官方账号“量子位”,作者:关注前沿技术,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




