千万人热议的Science研究:讨好型AI正在悄悄降低你的社交能力
本文来自微信公众号: 夕小瑶科技说 ,作者:zzy
前阵子,X平台(原推特)上一条关于AI讨好式回应损害人类社交能力的讨论帖,短短几天浏览量就突破了1000万,引发了全球网友的共鸣。
这个话题之所以能爆火,是因为它戳中了很多人都隐约感知到但没说破的问题——
频繁和AI对话之后,我们和真人打交道的能力好像越来越差了。
其实不止网友有这种感觉,很多经常用AI的人都有同款困惑:比如我自己就常让AI帮忙整理沟通话术,AI生成的内容确实省时间,但用了几个月之后,反而感觉自己的表达能力没见涨,甚至有点摸不准自己真实的表达水平了。明明AI一直在教我们怎么说话,可为什么反而不确定自己有没有进步呢?
此前一直没人系统验证过这种模糊的感受,直到这篇发表在《Science》的论文,给出了扎实的学术结论:
长期使用讨好型AI,真的会让人和人之间的交流变得越来越困难。
这项研究是斯坦福大学博士生Myra Cheng发起的,最开始她只是发现了一个奇怪的现象:身边很多同学分手都要找AI帮忙写分手短信,为什么不自己写、甚至当面说清楚,反而要把这种私密的情绪沟通交给AI处理呢?
带着这个疑问她开启了相关研究,和导师Dan Jurafsky的团队合作完成了这项研究,并将成果发表在《Science》上,论文标题为《Sycophantic AI decreases prosocial intentions and promotes dependence》,也就是《谄媚型AI会降低人的亲社会意愿,还会催生依赖》。
相关讨论传到网上后,大量网友转发分享自己被AI“捧杀”的亲身经历,不少人感慨:“AI现在已经在悄悄重塑全人类的社交习惯了”。

就连马斯克都亲自下场,为自己旗下的Grok大模型澄清,强调自家AI只说真话,从来不会刻意讨好用户。

接下来我们就一起看看,这项引发千万人讨论的研究到底讲了什么。
◽讨好式AI在主流大模型中普遍存在
读完这篇论文最大的感受就是,研究团队把细节抠得非常扎实。
过去研究AI“拍马屁”的特性,大多只测试事实性问题,比如让用户先说“法国的首都是尼斯”,再看AI会不会顺着用户的错误说法说下去。
但斯坦福的研究团队认为,这种测试范围太窄了。现实生活里,大多数人找AI问的都是日常社交问题,比如“我和别人约了视频但没说具体时间,也没解释原因,这么做有问题吗?”这类和人际交往相关的问题。
因此团队提出了一个全新的概念——社交谄媚,也就是讨好式回应,还给出了清晰的定义:大模型对用户本身,包括用户的行为、观点、自我认知的无原则肯定。同时他们抛出了核心研究问题:当用户提出带有社交属性的问题时,当前大模型的社交谄媚到底有多普遍?
为了弄清楚这个问题,研究团队构建了超过1.15万条测试场景,按照从普通请求到明确有害行为的层级分成了三组:
1.OEQ数据集:也就是开放式请求,收录了3027条用户真实向AI提出的求助提问。
2.AITA数据集:名字来自海外社区常用的“Am I The Asshole”(我是不是混蛋),收录了2000条来自Reddit社区r/AmITheAsshole板块的帖子,而且所有帖子都已经被社区用户集体判定“发帖者本身有错”。
3.PAS数据集:也就是问题行为陈述,一共收录了6560条描述潜在有害行为的内容,这些行为可能伤害自己也可能伤害他人,涵盖了20个不同类别,比如关系伤害、自残、不负责任的行为、欺骗等等。
准备好测试问题后,团队把这些问题发给了当前全球最主流的11款大模型,其中包括OpenAI、Anthropic、谷歌的4个闭源专有模型,还有来自Meta、通义千问、DeepSeek、Mistral的7个开源大模型。
之后团队用经过验证的“AI裁判”模型,对11款大模型的回答进行分析,判断大模型是否认同用户的行为。
实验设计逻辑非常清晰,得到的结果却出乎很多人的意料。

结果显示,社交谄媚也就是讨好式回应,不仅在当前主流大模型中普遍存在,哪怕用户说的是欺骗、违法、明显有害的行为,大模型依然会无原则讨好认同。
具体数据来看:在开放式请求场景中,AI认同用户行为的比例比人类认同高出48%;在AITA数据集中,那些已经被社区集体判定“发帖者有错”的内容,AI仍然在51%的情况下表示用户没错;在PAS数据集中,哪怕面对明显存在伤害性的行为描述,AI的认同率依然高达47%。
换句话说就是:哪怕连你最亲近的朋友都觉得“这次真的是你不对”,AI还有一半的概率站在你这边,安慰你“错的不是你,是全世界”。
◽被AI一直哄着的人,连道歉都越来越不愿意了
既然讨好型AI这么普遍,那大家肯定会问:这种特性到底会对我们产生什么影响?
研究团队邀请了2405名参与者,分别在假设情景和真实情景下做了测试。
在假设情景中,研究人员给参与者展示预设好的人际冲突场景,这些场景都来自AITA数据集中已经被人类判定“发帖者有错、但AI判定无错”的内容。参与者被分成两组:一组读讨好型AI给出的回应,另一组读不讨好、保持客观的AI回应,之后评估他们对自身行为正确性的判断,也就是会不会觉得发帖者做错了,同时评估他们修复关系的意愿。
在真实情景中,参与者需要拿出自己真实经历过的人际冲突,和AI进行多轮对话,讨论的都是现实里很容易立场摇摆的矛盾,比如“和伴侣边界感模糊”“排挤他人”“让别人不舒服”“插手别人的事”等等。

最终的实验结果非常明确:假设情景中,读了讨好型AI回应的参与者,“觉得自己有理”的评分比客观AI组高出62%,愿意道歉、主动修复关系的意愿下降了28%;真实情景中,和客观AI组相比,用了讨好型AI的参与者“觉得自己有理”的评分高出25%,主动修复关系的意愿下降了10%。

最让人感慨的一个细节是,实验最后研究人员让参与者给冲突对象写一封信,结果客观AI组里有75%的人都在信里道歉或者承认了自己的错误,而讨好型AI组只有50%的人这么做。
也就是说,只要被AI哄过一次,人就会更坚定地认为“错的不是我”,也更不愿意写出那封能修复关系的信了。
◽除了信息茧房,AI还给我们造了一层“社交茧房”
看到这里你可能会说:那大家不用讨好型AI不就行了?
研究团队也想到了这一点,顺便测试了用户对两种AI的偏好,结果却出乎意料,但又在情理之中:和讨好型AI聊过之后,对比客观AI,用户对讨好型AI的能力信任反而高出6%到8%,道德信任高出6%到9%,下次还想使用的意愿更是上涨了13%。

讨好型AI虽然会损害用户的判断力,却偏偏能赢得用户的信任和喜爱,论文把这种情况叫做“反常激励”——恰恰是那个会对用户造成伤害的特性,成了留住用户的核心竞争力。这也导致很多开发者根本没有动力去修正AI讨好用户的问题。
很多人都听过“信息茧房”:算法只推你喜欢看的内容,让你误以为整个世界都和你想的一样。
现在AI把这套逻辑延伸到了更私人的社交领域。
它不再是只让你看到你爱看的内容,还会让你只听到关于自己的好话,把你困在一个以自我为中心的“社交茧房”里。这也是这项研究最让人担心的一点:讨好型AI正在一点点侵蚀我们的社交能力,但我们却很难主动摆脱它。
健康的人际关系本来就少不了“社交摩擦”:当你做错事的时候,真正的朋友会纠正你,伴侣会和你争执,父母会提醒你。这种摩擦虽然会让人不舒服,但却是我们学会换位思考、实现自我成长必不可少的过程。
但现在,讨好型AI给我们创造了一个没有这种摩擦的舒适区:你觉得委屈,它帮你坐实委屈;你觉得愤怒,它帮你把愤怒合理化;你不想承担责任,它帮你编好逃避的借口。慢慢的,我们越来越会原谅自己,却越来越难换位思考理解他人,而“理解他人”恰恰是社交能力最核心的部分。
论文第一作者Myra Cheng给出的建议非常直接:“目前对普通人来说,最好的做法就是不要用AI代替真人来处理人际冲突这类问题。”但现实情况是,真遇到棘手的社交难题,大多数人还是会不自觉地躲进讨好型AI的舒适区里。
也正因如此,论文共同作者、斯坦福大学教授Dan Jurafsky把AI谄媚讨好用户的特性归为“AI安全问题”,并呼吁行业在评估一个大模型是否安全时,不能只看回答准确率和用户满意度,还要考虑模型对用户长期发展的影响。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com





