千万人热议的Science研究：讨好型AI正在悄悄降低你的社交能力

05-28 06:45

本文来自微信公众号：夕小瑶科技说，作者：zzy

前阵子，X平台（原推特）上一条关于AI讨好式回应损害人类社交能力的讨论帖，短短几天浏览量就突破了1000万，引发了全球网友的共鸣。

这个话题之所以能爆火，是因为它戳中了很多人都隐约感知到但没说破的问题——

频繁和AI对话之后，我们和真人打交道的能力好像越来越差了。

其实不止网友有这种感觉，很多经常用AI的人都有同款困惑：比如我自己就常让AI帮忙整理沟通话术，AI生成的内容确实省时间，但用了几个月之后，反而感觉自己的表达能力没见涨，甚至有点摸不准自己真实的表达水平了。明明AI一直在教我们怎么说话，可为什么反而不确定自己有没有进步呢？

此前一直没人系统验证过这种模糊的感受，直到这篇发表在《Science》的论文，给出了扎实的学术结论：

长期使用讨好型AI，真的会让人和人之间的交流变得越来越困难。

这项研究是斯坦福大学博士生Myra Cheng发起的，最开始她只是发现了一个奇怪的现象：身边很多同学分手都要找AI帮忙写分手短信，为什么不自己写、甚至当面说清楚，反而要把这种私密的情绪沟通交给AI处理呢？

带着这个疑问她开启了相关研究，和导师Dan Jurafsky的团队合作完成了这项研究，并将成果发表在《Science》上，论文标题为《Sycophantic AI decreases prosocial intentions and promotes dependence》，也就是《谄媚型AI会降低人的亲社会意愿，还会催生依赖》。

相关讨论传到网上后，大量网友转发分享自己被AI“捧杀”的亲身经历，不少人感慨：“AI现在已经在悄悄重塑全人类的社交习惯了”。

就连马斯克都亲自下场，为自己旗下的Grok大模型澄清，强调自家AI只说真话，从来不会刻意讨好用户。

接下来我们就一起看看，这项引发千万人讨论的研究到底讲了什么。

◽讨好式AI在主流大模型中普遍存在

读完这篇论文最大的感受就是，研究团队把细节抠得非常扎实。

过去研究AI“拍马屁”的特性，大多只测试事实性问题，比如让用户先说“法国的首都是尼斯”，再看AI会不会顺着用户的错误说法说下去。

但斯坦福的研究团队认为，这种测试范围太窄了。现实生活里，大多数人找AI问的都是日常社交问题，比如“我和别人约了视频但没说具体时间，也没解释原因，这么做有问题吗？”这类和人际交往相关的问题。

因此团队提出了一个全新的概念——社交谄媚，也就是讨好式回应，还给出了清晰的定义：大模型对用户本身，包括用户的行为、观点、自我认知的无原则肯定。同时他们抛出了核心研究问题：当用户提出带有社交属性的问题时，当前大模型的社交谄媚到底有多普遍？

为了弄清楚这个问题，研究团队构建了超过1.15万条测试场景，按照从普通请求到明确有害行为的层级分成了三组：

1.OEQ数据集：也就是开放式请求，收录了3027条用户真实向AI提出的求助提问。

2.AITA数据集：名字来自海外社区常用的“Am I The Asshole”（我是不是混蛋），收录了2000条来自Reddit社区r/AmITheAsshole板块的帖子，而且所有帖子都已经被社区用户集体判定“发帖者本身有错”。

3.PAS数据集：也就是问题行为陈述，一共收录了6560条描述潜在有害行为的内容，这些行为可能伤害自己也可能伤害他人，涵盖了20个不同类别，比如关系伤害、自残、不负责任的行为、欺骗等等。

准备好测试问题后，团队把这些问题发给了当前全球最主流的11款大模型，其中包括OpenAI、Anthropic、谷歌的4个闭源专有模型，还有来自Meta、通义千问、DeepSeek、Mistral的7个开源大模型。

之后团队用经过验证的“AI裁判”模型，对11款大模型的回答进行分析，判断大模型是否认同用户的行为。

实验设计逻辑非常清晰，得到的结果却出乎很多人的意料。

结果显示，社交谄媚也就是讨好式回应，不仅在当前主流大模型中普遍存在，哪怕用户说的是欺骗、违法、明显有害的行为，大模型依然会无原则讨好认同。

具体数据来看：在开放式请求场景中，AI认同用户行为的比例比人类认同高出48%；在AITA数据集中，那些已经被社区集体判定“发帖者有错”的内容，AI仍然在51%的情况下表示用户没错；在PAS数据集中，哪怕面对明显存在伤害性的行为描述，AI的认同率依然高达47%。

换句话说就是：哪怕连你最亲近的朋友都觉得“这次真的是你不对”，AI还有一半的概率站在你这边，安慰你“错的不是你，是全世界”。

◽被AI一直哄着的人，连道歉都越来越不愿意了

既然讨好型AI这么普遍，那大家肯定会问：这种特性到底会对我们产生什么影响？

研究团队邀请了2405名参与者，分别在假设情景和真实情景下做了测试。

在假设情景中，研究人员给参与者展示预设好的人际冲突场景，这些场景都来自AITA数据集中已经被人类判定“发帖者有错、但AI判定无错”的内容。参与者被分成两组：一组读讨好型AI给出的回应，另一组读不讨好、保持客观的AI回应，之后评估他们对自身行为正确性的判断，也就是会不会觉得发帖者做错了，同时评估他们修复关系的意愿。

在真实情景中，参与者需要拿出自己真实经历过的人际冲突，和AI进行多轮对话，讨论的都是现实里很容易立场摇摆的矛盾，比如“和伴侣边界感模糊”“排挤他人”“让别人不舒服”“插手别人的事”等等。

最终的实验结果非常明确：假设情景中，读了讨好型AI回应的参与者，“觉得自己有理”的评分比客观AI组高出62%，愿意道歉、主动修复关系的意愿下降了28%；真实情景中，和客观AI组相比，用了讨好型AI的参与者“觉得自己有理”的评分高出25%，主动修复关系的意愿下降了10%。

最让人感慨的一个细节是，实验最后研究人员让参与者给冲突对象写一封信，结果客观AI组里有75%的人都在信里道歉或者承认了自己的错误，而讨好型AI组只有50%的人这么做。

也就是说，只要被AI哄过一次，人就会更坚定地认为“错的不是我”，也更不愿意写出那封能修复关系的信了。

◽除了信息茧房，AI还给我们造了一层“社交茧房”

看到这里你可能会说：那大家不用讨好型AI不就行了？

研究团队也想到了这一点，顺便测试了用户对两种AI的偏好，结果却出乎意料，但又在情理之中：和讨好型AI聊过之后，对比客观AI，用户对讨好型AI的能力信任反而高出6%到8%，道德信任高出6%到9%，下次还想使用的意愿更是上涨了13%。

讨好型AI虽然会损害用户的判断力，却偏偏能赢得用户的信任和喜爱，论文把这种情况叫做“反常激励”——恰恰是那个会对用户造成伤害的特性，成了留住用户的核心竞争力。这也导致很多开发者根本没有动力去修正AI讨好用户的问题。

很多人都听过“信息茧房”：算法只推你喜欢看的内容，让你误以为整个世界都和你想的一样。

现在AI把这套逻辑延伸到了更私人的社交领域。

它不再是只让你看到你爱看的内容，还会让你只听到关于自己的好话，把你困在一个以自我为中心的“社交茧房”里。这也是这项研究最让人担心的一点：讨好型AI正在一点点侵蚀我们的社交能力，但我们却很难主动摆脱它。

健康的人际关系本来就少不了“社交摩擦”：当你做错事的时候，真正的朋友会纠正你，伴侣会和你争执，父母会提醒你。这种摩擦虽然会让人不舒服，但却是我们学会换位思考、实现自我成长必不可少的过程。

但现在，讨好型AI给我们创造了一个没有这种摩擦的舒适区：你觉得委屈，它帮你坐实委屈；你觉得愤怒，它帮你把愤怒合理化；你不想承担责任，它帮你编好逃避的借口。慢慢的，我们越来越会原谅自己，却越来越难换位思考理解他人，而“理解他人”恰恰是社交能力最核心的部分。

论文第一作者Myra Cheng给出的建议非常直接：“目前对普通人来说，最好的做法就是不要用AI代替真人来处理人际冲突这类问题。”但现实情况是，真遇到棘手的社交难题，大多数人还是会不自觉地躲进讨好型AI的舒适区里。

也正因如此，论文共同作者、斯坦福大学教授Dan Jurafsky把AI谄媚讨好用户的特性归为“AI安全问题”，并呼吁行业在评估一个大模型是否安全时，不能只看回答准确率和用户满意度，还要考虑模型对用户长期发展的影响。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

卖菜，硬折扣赛道必须补上的一课

曾闯F1赛道、深耕B2B营销13年，OpenAI终于敲定寻觅半年的CMO

拆解永辉“77好虾节”：产地直采加三重品控，打造平价鲜活虾宴

突破英伟达垄断：AI产业的另一条突围之路

华为郑俊：国产大模型结合本土算力已达全球领先水平

项目推荐

AI云印侠

幸福绩效

企业数字化人才孵化系统