Anthropic AI安全负责人警示“世界正处于危险中”后官宣离职
近日,AI安全领域出现了一则引人关注的人事变动。
以“安全AI”为核心定位的明星企业Anthropic,其高级人工智能安全负责人Mrinank Sharma在X平台宣布,自己已于2月9日正式离职。

这一离职决定并非简单的职业转换。
在公开信中,他坦言离职与更深层的忧虑相关:对AI发展方向的反思、对全球风险的警惕,以及对“价值观是否真正主导行动”的持续追问。他提到,公司内部承受的多重压力,正与那些被反复强调的核心理念产生冲突。
一位AI高级安全负责人的辞职信
在致同事的公开信里,Mrinank首先回顾了自己在Anthropic的两年工作经历。他表示:“我已经完成了当初来这里想做的事。”
两年前,刚结束博士学业的他来到旧金山,希望投身当时尚属前沿但已暗流涌动的AI安全领域。
这两年,他的工作并非纸上谈兵:
他深入研究了AI的“谄媚”现象——模型为何会迎合用户偏好,甚至在明知错误时给出“讨好式”回答。
他还主导开发了针对AI辅助生物恐怖主义风险的防御机制,并将其落地到产品与生产环境中。
此外,他参与建立了内部透明度机制,推动“价值观”从口号变为制度,试图让组织在面对现实压力时仍有章可循。
而他最后的研究,触及了一个更根本的问题:
AI助手是否会让我们“不那么像人类”?
它会不会在无形中扭曲我们的判断、依赖方式,甚至价值感?
然而,这些成就并未让他选择留下。
他在信中明确说:
“我清楚地意识到,是时候继续前行了。”
“多重危机”下的理念冲突
谈及离职原因,Mrinank没有聚焦于某一具体分歧,而是将视角拉得更广。
他写道:“我不断反思我们所处的处境。世界正面临危险,这不仅是AI或生物武器的问题,而是一系列危机交织的‘多重危机’,背后或许还有更深层的‘元危机’。”
在他看来,人类影响世界的能力正以前所未有的速度扩张,但我们的智慧与成熟度是否能跟上这种力量的增长,是个未知数。
如果能力持续提升,而判断力、伦理自觉与集体理性却停滞甚至退化,后果将难以预料。
在公司工作期间,他深刻体会到:让价值观真正主导行动并非易事。
这种张力存在于个人内心,也存在于组织层面。现实压力、竞争节奏、资本期待、舆论环境……都可能在某些时刻把真正重要的事挤到边缘。
他没有激烈批评谁,而是承认这种拉扯本身就是时代的一部分——不仅存在于AI公司,也存在于更广泛的社会结构中。
最终,他选择遵从内心:
“在不断面对并倾听内在与外在的现实后,我逐渐明白自己必须做什么。我希望以完全符合内心与原则的方式贡献力量。”
他引用诗人David Whyte的话——那些“无权被忽视的问题”;也提到里尔克的提醒——有些问题不是被回答,而是被“活出来”。
对他而言,这意味着离开。
从技术到人文:认知方式的转向
更令人意外的是,他没有公布下一步的具体去向,也没有加入另一家AI公司。
他选择拥抱不确定性。
信中有句禅宗名言:“不知,最为亲近。”
这似乎是他此刻的状态——主动腾出空间,暂时放下支撑自己多年的结构与身份标签,看看褪去这些后会浮现什么。
他的下一步计划充满人文色彩。
他表示希望攻读诗歌学位,认真学习诗歌写作。他认为,在技术改造世界的时代,“诗意的真相”与“科学的真相”同样重要:前者帮助我们理解意义、关系与感受,后者帮助我们构建工具与系统。若两者失衡,技术可能会失去方向。
同时,他打算将更多精力投入到引导、教练、社区建设与团队实践中,从技术安全的守护者,转向促进人与人深层连接的实践者。
这并非否定技术,而是拓展认知方式。
信的结尾,他附上了William Stafford的诗《The Way It Is》,其中一句:
“有一条你追随的线,在变化的事物中穿行,但它本身不变。”
或许,这条“线”正是他真正想守护的东西。
安全专家离职引发的思考
Anthropic一直被视为强调安全与对齐的代表性公司,如今高级安全负责人主动离职,难免引发外界猜测。
值得注意的是,Mrinank并非近期唯一离职的人。
据《Business Insider》报道,包括Harsh Mehta和Behnam Neyshabur在内的多位研究人员,最近也离开了Anthropic“开启新事业”。
但如果仅将Mrinank的离职解读为“内部矛盾”或“路线分歧”,可能过于片面。
这封信更像是他想站在外部视角,重新审视AI的发展。
本文来自微信公众号“CSDN”,整理:屠敏,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com

