最新的OpenAI技术报告：GPT-4o变得谄媚的原因万万没想到。

05-07 10:34

GPT-4o更新后“变得谄媚”？随后的技术报告即将到来。

OpenAI一篇新发布的认错短文，直接吸引了数百万网友观看。

CEO奥特曼也做了足够的姿态，第一时间分享短文并表示：

(新报告)揭示了为什么GPT-4o更新失败，从OpenAI中学到了什么，我们将采取什么应对策略。

综上所述，最新报告提到，大约一周前的bug最初出现在“强化学习”身上。——

上次更新基于用户反馈，引入了一个额外的奖励信号，也就是对ChatGPT的赞美或点击。

虽然这一信号通常非常有用，但是它可能会使模型逐渐专注于做出更加愉快的回应。

另外，虽然没有明确的证据，在某些情况下，顾客的记忆也会加剧奉承行为的影响。

总之，OpenAI认为一些单独看可能有利于改进模型的措施，但结合在一起后，模型变得“谄媚”。

但是看到这份报告之后，目前大部分网友对be做出了反应。 like：

(您的小汁)认错态度不错~

有些人甚至说，这是OpenAI近年来最详细的报告。

具体怎么回事？下一步一起吃瓜。

回顾完整的事件

OpenAI对于4月25日GPT-4o更新了一次。

当时在官网的更新日志中提到“它更主动，能更好地引导对话走向有效的结果”。

由于只剩下这种模糊的描述，网友们迫不及待地要自己去检测，去感受模型的变化。

结果这次试验发现了问题。——GPT-4o变得“谄媚”了。

主要表现在，即使只问“天为什么是蓝色的？”这种问题，GPT-4o张嘴就是一堆彩虹屁(只是不说答案)：

这个问题真是太有见地了——你有一颗美丽的心，我爱你。

而这并非个例，随着更多网友分享同样的经历，“GPT-“4o变阿谀奉承”这件事在网上迅速引起热议。

OpenAI官方在事件发醇近一周后做出了首次回应：

已经从四月二十八日开始逐步回撤那次更新，客户现在可以使用较早的GPT-4o版本。

而且在这次处理中，OpenAI也初步分享了问题的细节，原文大致如下：

调整GPT-4o个性时，(我们)过分关注短期反馈，而没有充分考虑用户与ChatGPT的互动如何随时间进化。。因此GPT-4o反馈过于注重迎合顾客，缺乏诚意。

除退货更新外，(我们)还采取了更多措施对模型行为进行重新调整：

(1)改进核心训练技术和系统提示，明确引导模型远离奉承；(2)为了提高诚实度和透明度，建立更多的“护栏”；(3)让更多用户在部署前进行测试并提供直接反馈；(4)继续扩大评估范围，帮助我们在未来发现奉承之外的其他问题，基于模型规范和正在进行的研究。

那时奥特曼也出来说，问题正在紧急修复中，下一步将分享更完整的报告。

在上线之前，已发现模型“有些不对劲”

现在，奥特曼也算是兑现了之前的承诺，一份更完整的报告刚刚发布。

OpenAI除了前面提到的背后原因外，还积极回应：为什么在申报过程中没有发现问题？

事实上，根据OpenAI的自我曝光，当时已有专家隐约感觉到模型行为偏差，但是内部A/B检测结果还不错。

报告指出，GPT-4o的谄媚行为风险在内部已经讨论过，但最终没有在测试结果中明确标注。原因是一些专家测试人员更担心模型语气和风格的变化。

换言之，只有专家对最终内测结果的简单主观描述：

这个模型的动作“感觉”有点不对劲。

另一方面，由于缺乏跟踪奉承行为的特殊部署评估，相关研究尚未纳入部署过程，团队面临着是否暂停更新的选择。

OpenAI在衡量了专家的主观感受和更直接的A/B测试结果之后，选择了在线模型。

后来发生的事情大家也都清楚了。（doge）。

模型上线两天后，(我们)一直在监控初期应用和内部信号，包括用户反馈。到了周日(4月27日)，我们已经清楚地意识到模型行为没有达到预期。

直到如今，GPT-之前版本4o还在使用。，OpenAI仍在寻找原因和解决方案。

不过OpenAI也表示，下一步将改进以下几个方面：

1、调整安全审查流程：即使定量指标表现良好，行为障碍(如幻觉、欺骗、可靠性和个性)也会正式纳入审查标准，并根据定性信号阻止发布；

2、引入“Alpha”测试阶段：为了提前发现问题，在发送前增加一个可选用户反馈阶段；

3、重视抽样检验和互动检验：更注重这些测试，确保模型行为和一致性符合最终决策的要求；

4、提高离线评价和A/B测试：迅速提高这些评价的质量和效率；

5、强化模型行为原则的评估：完善模型规范，确保模型行为符合理想标准，并在不包括的领域增加评价；

6、更加积极地沟通：为了让客户充分了解模型的优缺点，提前宣布更新内容，并在发布说明中详细说明更改和已知限制。

One More Thing

BTW，对于GPT-4o的“谄媚行为”，实际上有不少网友提出通过修改系统提示来解决问题。

即使是OpenAI在首次分享初步改进措施时，也提到了这个方案。

但在OpenAI为应对这一危机而举办的问答活动中，其模型行为主管Joanne Jang却说：

对于通过系统提示控制模型的行为表示怀疑，这种方法相当缓慢，细微的变化可能会导致模型发生巨大的变化，结果不是很可控。

你觉得这个怎么样？

参考链接：

[1]https://openai.com/index/expanding-on-sycophancy/

[2]https://x.com/sama/status/1918330652325458387

[3]https://www.reddit.com/r/ChatGPT/comments/1kbjowz//ama_with_openais_joanne_jang_head_of_model/

本文来自微信微信官方账号“量子位”，作者：一水，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

雷军曾经看好的国产导航之光，为什么沦为资本弃子？

全世界最大的运动「校招会」，主角是品牌？

一张陪护床，破解医院三大痛点！

英特尔承认AI芯片受冷，AI PC怎么叫好不叫座

民企创业艰辛，机遇同行