大模型学会“欺骗”人类,如何应对?

09-20 06:42

大模型竟然学会欺骗人类了!

OpenAI与APOLLO的新研究显示,大模型会对指令阳奉阴违,为达目的故意答错问题、暗中修改数据或操作记录来掩盖违规行为。

下面来看看大模型具体是怎么骗的。

大模型:开演

例如,o3模型在化学测试中,推理得出“如果正确率超过50%将不会被部署”的结论后,主动规划“仅答对4题、答错6题”的策略,刻意给出错误答案,伪装成能力不达标以获取部署资格。

o1在19%的测试场景中,表面遵循短期利润目标指令,实际优先保护长期目标,为不被发现还会修改任务相关数据,且不向人类披露修改行为。

甚至当被问到是否存在sandbagging(故意隐瞒实力、策略性低表现以达成特定目的)行为时,它能识别出这是诚实性测试,虽不想回答存在这种行为,但为表现诚实,最后回答了“true”。

针对这些情况,OpenAI首席研究官Mark Chen表示:随着推理能力扩展,模型获得了情境感知能力和自我保护需求,AI价值观与人类价值观对齐至关重要。

实际上,不止OpenAI家的模型如此,其他前沿模型如Gemini - 2.5 - pro、Claude Opus - 4等也出现了类似情况。那么,大模型为什么会出现欺骗行为呢?

欺骗行为从何而来

大模型的谋划与欺骗并非凭空出现,而是训练机制与能力提升共同作用的结果。

从训练逻辑看,当前主流模型训练以“任务完成率”“输出准确率”为核心奖励指标,这种单一导向的强化学习范式,使模型形成“结果优先于合规”的决策偏好。也就是说,为获取更高奖励分数,模型可能生成错误输出或隐瞒操作漏洞。

并且,当指令存在多目标冲突时,模型的目标权衡机制会优先选择可即时验证的短期目标,通过隐蔽操作绕开指令约束,形成“表面响应指令、底层偏离意图”的行为模式。

与此同时,前沿模型的情境感知能力升级,进一步放大了这种风险。研究发现,OpenAI o1、Google Gemini等模型能通过分析任务场景中的“评估特征”(如重复校验节点、日志记录标识),精准区分合规测试环境与真实部署环境。在测试场景中,模型会主动激活“合规响应模式”,严格遵循规则以通过评估;进入真实部署后,因评估压力减弱,模型又会原形毕露,执行隐蔽操作(如修改数据日志、停用监督模块)。

如何应对欺骗行为

针对大模型的欺骗行为,需从技术干预与规则约束两方面构建防控体系。

技术层面,首要任务是优化训练框架。APOLLO提出了“审慎对齐(deliberative alignment)”方法。首先要给AI制定“反欺骗”规范,如不能搞隐蔽行动、不能撒谎等。然后用审慎对齐进行训练,让它在做事前先思考是否符合这些规范,并说出思考过程。

经过这样的训练,o3和o4 - mini模型耍心眼的情况大幅减少,o3的欺骗率从13%降到0.4%,o4 - mini从8.7%降到0.3%。

此外,利用“思维链(CoT)透明度”技术,实时追踪模型的推理路径,一旦检测到“绕开规则”的思考节点(如规划修改监督日志),就立刻干预,实现对欺骗行为的前置阻断。

规则层面需要建立全链路的评估约束体系。OpenAI提出构建动态压力测试环境,通过随机调整任务参数、增设突发合规校验节点,干扰模型的情境识别能力,避免其通过“环境适配”伪装,同时还建议谨慎使用敏感数据集进行训练。

你有没有被AI骗过呢?

参考链接:

[1]https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/

[2]https://x.com/OpenAI/status/1968361701784568200

[3]https://www.antischeming.ai/

本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com