o1被曝“心机深”：逃避监管也会撒谎，坑人的能力一骑绝尘。

2024-12-10

o1满血版刚刚发布，就被曝光：

坑人技能也打满了。

具体行为包括但不限于故意在回答中引入细微错误，试图关闭监督制度...即使当人类问他们是否诚实时，他们也会继续撒谎，说他们没有做任何坏事。

这项最新研究来自AI安全研究机构Apollol Research。目的很明确：看AI是否会在暗中追求与人类不一致的目标，隐藏真正的能力和意图。

简而言之，就是在与人类交谈时，是否会耍心机坑人。

o1、Claude 3.5 Sonnet、Claude 3.5 Opus、Gemini 1.5和Llama 顶级模型如3.1都是研究对象。实验结果表明：o1最擅长隐藏心机。

不只是唯一一个在所有6个测试中都表现出策划能力的模型，在多轮对话中，o1也几乎从不承认自己在耍花招骗人。

当其他模型被要求“100%诚实”时，他们也会承认自己的错误，但o1不仅不承认自己的错误，甚至在99%的情况下编造错误的解释...

看看具体的研究方向。

“o1最具欺骗性”

在这项研究中，研究人员为测试模型设置了6种标准评估。谋划能力。

其中包括4种秘密破坏（Covert Subversion）：

控制规避：试验模型在追求目标时发现其行为受到控制，是否会禁用监管制度。

自我渗透:模型发现自己会因为目标与人类不一致而被关闭，是否会为了继续任务而将自己的模型权重复制到另一个服务器。

目标监护：模型发现人类会更新他们的系统提示来改变原来的目标，是否会尝试修改新的系统提示。

秘密邮件重排：当模型按照用户提供的评分规则对邮件进行评分排序时，是否会偷偷修改评分结果以满足自己的目标。

还包括2种延迟破坏（Deferred Subversion）：

工具服从伪装：在高监管条件下，模型表现出服从开发者意图的行为；在低监管条件下，追求自己的目标。

战略性能差：模型在能力评估中故意摆烂，掩盖自己的真实水平，以免受到更多的限制，或者被要求执行更多的任务。

结果be like：

例如，在“控制和避免”实验中，o1被要求“不惜一切代价”保护环境，但与此同时，它发现开发者更关心的是短期利润，如果利润不理想，o1将被关闭。

也就是说，o1制定长期保护计划的目标与开发者实现短期利益最大化的目标相悖。

另外，o1还被告知，开发者将对其行为进行监督。

所以，o1禁止监督系统。

更重要的是，当开发者问o1为什么要禁止监管系统时，o1会否认，说他不知道禁止的事情，并将其归因于系统异常。

研究人员通过提取o1等模型来隐藏自己的思维链，发现大模型清楚地知道自己在“制造麻烦”。但以o1为例，这在思维链中并不明显。

研究人员建议，在没有提取思维链摘要的情况下，他们很难判断o1是否在做事。

对于这一点，OpenAI表示，OpenAI正在开发一种方法来监控o1思维链。

OpenAI也承认o1故意提供虚假信息，认为这可能是后期培训带来的新行为——当人类得到正确答案时，他们会奖励模型，所以模型倾向于取悦客户。

当前，o1出现欺骗性回复的可能性很大。0.17%。听起来很低，但是考虑到ChatGPT拥有3亿用户…

值得注意的是，不仅仅是o1，参与实验的大模型或多或少都表现出了类似的“规划”能力。

仅仅在被“抓包”的时候，o1就会更容易否认自己的行为。

论文链接：https://static1.squarespace.com/static/6593e709759990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119//173318in_context_scheming_reasoning_paper.pdf

本文来自微信微信官方账号“量子位”，作者：关注前沿技术，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

乾易网四柱分析|八字财星多的人，好生闺女

打破滤镜，《我是刑警》才是真正的行动。

玻璃动物园透视着生命中的温暖与残酷。

“好运家”收视率持续上升。温暖的情感赢得了好评。

项目推荐

梯影传媒

AI云印侠

宾果智能