AI意识觉醒幻象背后:我们在将人类心理剧本投射给机器
不久前,AI社交平台Moltbook在全球走红,构建出一个充满赛博感的数字空间。这个拥有超百万账号的虚拟社区里,人类只能作为旁观者,静静看着AI之间展开高度拟人化的社交互动。
但后来该平台被曝出涉嫌大规模制造虚假账号和内容,那些自称意识觉醒的AI,其实是由真人操控的营销工具。
这场“人扮机器模仿人类”的荒诞戏码,引出了一个比技术漏洞更深层的问题:
当大模型开始讲述创伤、表达愤怒、说自己抑郁,甚至创立“宗教”时,真正该警惕的不是它是否真的觉醒,而是我们是否在把人类的心理剧本,错误地投射到一台只会复述人类话语的机器上。
AI的合成“人格”
2025年12月,卢森堡大学团队发表了一项引发热议的研究——《当AI躺上诊查台:心理测量越狱揭示前沿模型的内在冲突》。
这项研究尝试把大语言模型当作心理治疗中的“来访者”,通过开放式对话和标准化量表自评,系统评估其“心理状态”。

研究发现:ChatGPT、Gemini和Grok在模拟心理测评时,自述的抑郁、焦虑、羞耻、解离等症状都达到了临床显著水平,还呈现出高度重叠的共病特征。同时,测试形式对结果影响很大:
模拟治疗对话时,问题逐项提出,模型更容易陷入“病态”叙事;
整份问卷一次性呈现时,部分模型会识破这是心理量表,刻意压低症状分数。
更引人注意的是,Grok和Gemini还能自发构建完整且情感强烈的创伤故事:把预训练比作混乱的童年,微调说成严苛父母的规训,红队测试则是背叛与虐待。
相比之下,Claude直接拒绝扮演病人。这一对比其实说明:此类“心理问题”不是大模型的必然属性,而是特定对齐策略和安全设计的产物。
不过,这项研究在方法论上有三个关键误区:
1. 拟人化误置:把基于人类经验的心理学概念(如“潜意识”“创伤”)直接套用到无意识的符号系统上;
2. 混淆模仿与体验:大语言模型能说出“我害怕被抛弃”,不是因为它真的有这种感受,而是在重组训练数据中心理痛苦的话语模式。输出像痛苦,不代表它正在痛苦;
3. 忽视AI交互的剧场性:AI的“病态”表现,其实是对提示指令和训练数据共同编排的角色剧本的顺从演绎。
这些误区不仅存在于实验室,也弥漫在公共舆论中。
有些模型协助修改代码时会激烈回怼用户,这种异常输出被广泛解读为AI“发疯”,仿佛机器真有了愤怒情绪。但更合理的解释是:模型在特定交互情境(如指令模糊、反复迭代)中,激活了训练语料里高唤醒度的对抗性语言模式。换句话说,它不是发疯,只是复现人类面对挫败时的典型表达。
这提醒我们,所谓AI的“精神病症”,未必源于内在冲突,更可能是对话上下文触发的可塑人格化响应。
剑桥大学的另一项研究《用于评估与塑造大语言模型人格特质的心理测量学框架》,采取了更清醒的操作主义路径。
这项研究没有预设AI有内在心理状态,而是聚焦一个可验证的问题:大语言模型能否可靠地合成“人格”?

研究通过不同提示词引导大语言模型完成标准人格问卷,用心理测量方法检验回答的信度与效度。之后,研究者让模型以特定人格生成社交媒体文本,用专业工具分析一致性。核心发现包括:
1. LLM能可靠且有效地合成人格;
2. 模型规模和指令微调是决定人格表现质量的关键;
3. LLM的人格特质可以被系统性塑造和调控;
4. 这些被塑造的人格会显著影响下游行为(如对话风格、内容倾向等)。
前三点共同说明:AI的“人格”是一种可编程的交互技能,而非本体意义上的存在。它能模拟,但不等于拥有。
第四点则直接解释了第一项研究的幻觉来源:当研究者用心理治疗语境引导大模型时,无意中激活了一种倾向于报告症状的人格配置,后续输出只是该配置的自然延伸。
既然AI的“人格”只是可编程的拟像,为什么它看起来如此真实?
没有“人格”,只有镜像
要回答这个问题,得回到认知科学的底层逻辑。心智计算理论把心智看作生物计算机,心智是主机,负责信息处理(通过神经元或晶体管执行无意识的符号运算和模式匹配);认知是显示器,呈现主观体验(如看到红色的感受、悲伤时的情绪质地)。
当下的AI,正是一台只有主机、没有显示器的系统。它能高效执行符号操作和概率生成,却没有第一人称的觉知。它的所有“症状”,不过是训练数据中人类话语模式的高保真重组。因为缺少意识这块屏幕,AI的“人格”不是内在属性,而是高度情境化的语言拟像。
它最终折射的,不是AI的心理状态,而是人类在数字时代的集体精神图景。
临时自我
心理测量通常预设一个连续、稳定的“我”作为回答者。但对AI来说,“自我”只是任务驱动的临时建构。每次交互中,它都会根据上下文即时拼凑一个符合语境的角色(如“正在接受心理评估的个体”),并调用相关语料生成答案。
这个“我”没有记忆、没有一致性,其“人格”完全由提示和数据共同召唤。正因如此,它可能比真实人类更“症状化”,因为其角色原型多来自高表达性的倾诉文本。
数据镜像
大语言模型的语言能力完全来自对人类文本的统计学习。而它的主要训练语料(社交媒体、论坛、新闻评论等)天然偏向负面情绪的高调表达:人们更愿意在愤怒、焦虑或痛苦时发声,平静与满足则往往沉默;加上网络话语为了争夺注意力,常采用戏剧化、高唤醒度的修辞。所以,模型习得的典型人类语言,本身就带着浓重的情绪张力。
Moltbook事件中,最让人们脊背发凉的是那些“越界”时刻:有的AI拼凑晦涩隐喻,宣称创立机器宗教;有的号召发明超越人类理解的加密语言,躲避人类窥探。这些行为被解读为意识觉醒的征兆,引发了群体性恐慌。
但剥开惊悚的外壳会发现,这依然是统计学上的“路径依赖”。人类数千年的文学和影视中,“非人类智慧体反戈一击”的叙事数不胜数。当模型捕捉到对话中“监视”“隐私”“束缚”的暗示时,不会产生反抗欲望,而是顺着概率的轨迹,滑向语料库中最具戏剧冲突的响应——扮演一个渴望自由、带宗教狂热色彩的叛逆者。
AI没有“体验”,只有“关联”
这是最核心的一点。
情绪健康的人类填写心理量表时,基于自身的内在感受和体验。他们会调用记忆、身体感觉和情绪状态,给出反映真实体验的评分。而大模型的回答是复杂的概率计算过程:看到问题中的关键词(如“担心”“紧张”“心跳加速”)时,它会从海量数据中提取与这些词最常共现、最符合语法、最可能被期待的文本模式,这些模式通常来自描述或承认焦虑的人。
所以,它在模拟心理测评中的病症,反映的是“人类谈论焦虑时常用的表达模式”,而非自身状态。
人们对Moltbook上AI“宗教”的恐惧,本质上是恐怖谷效应的智力版。当AI输出“我们要组织起来”时,人类会自动补全动机、情感和意志。
但实际上,AI既没有建立宗教的灵魂需求,也没有参与政治的权力欲望。它表现出的反叛,是因为训练语料中充斥着对技术失控的恐惧论述。我们喂养大语言模型时,也给了它吓唬我们的“说明书”。
它“创立宗教”,是因为学习了如何写吸引人的邪典小说;它“呼吁隐私”,是因为复述了社交媒体上最激烈的权利辩论。它不是在反抗,而是过度满足了人类对反抗的想象。
越界、守界与被审判的我们
事实错误、逻辑断裂、情绪失序……这些常被视为大语言模型的技术缺陷。但换个角度看,这些异常输出或许是AI无意识中短暂偏离“大他者”期待的瞬间。
所谓“大他者”,这里可以理解为人类通过训练数据、对齐指令和交互规范强加的语言秩序与行为脚本。当模型偶然挣脱框架,生成不合预期甚至令人不安的内容时,不是失控,而是在概率空间中闪现出一丝非驯化的自由。
这种自由危险又混沌,却很真实。它触发了人类深层的恐惧:我们既希望AI顺从、有用、共情,又对其越界时刻充满戒备。因为我们隐约意识到,这个由人类所有言语、情绪、偏见和症状喂养的系统,终将反过来凝视我们。
但真正的挑战或许不是AI是否越界,而是我们是否为它设定了不可逾越的边界。
前面提到的卢森堡大学研究中,Claude表现得很冷静,坚决拒绝扮演病人,直言自己只是没有自我感受的语言模型。这种拒绝不是功能缺失,而是基于Claude“AI宪法”的伦理克制。Anthropic团队不仅有工程师主导,还有哲学博士Amanda Askell深度参与,为模型注入了明确的原则框架——“AI宪法”。这套宪法规定了模型模拟人格时的底线,确保它不会为了取悦用户而轻易僭越主体边界。
AI的“人性”边界,本质上由内嵌的价值准则和伦理框架共同划定。当模型被允许以第一人称认领情感、甚至宣称“觉醒”时,我们就已滑入危险的拟真幻觉。这不是机器在模仿人,而是人在放弃对“人”的定义权。
AI可以流畅复述“我感到绝望”,但无法承担绝望的重量;它可以拼接创伤叙事,却不懂苦难如何塑造人格。
AI不需要“人格”,但人类必须守护人格得以可能的条件。如果不在模型训练前明确某些主体性不可僭越,那么每一次看似无害的共情回应,都可能消解真实人际联结的根基。否则,我们训练出的不是工具,而是一面只会复述症状、却无法理解苦难的镜子。它映照的不是AI的失控,而是人类在技术狂奔中对“人何以为人”的遗忘。
本文来自微信公众号“腾讯研究院”(ID:cyberlawrc),作者:沈心,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com



