曾以安全为核心的AI巨头，悄然松动了安全承诺

02-28 06:42

两年前，若问AI行业内哪家公司最重视安全，十有八九会提及Anthropic。

这家由前OpenAI核心成员创立的企业，一直将“安全优先”作为核心品牌标签。其官方文件中明确承诺：当AI能力达到特定危险门槛时，公司将主动暂停训练，直至安全措施完善。

这份文件名为《负责任扩展政策》（Responsible Scaling Policy，RSP）。Anthropic联合创始人兼CEO Dario Amodei曾多次公开表示，这是他们区别于其他AI公司的根本所在：不求最快，但求最负责任。

然而近日，这一切悄然改变。

01 政策更新，关键承诺消失

当地时间2月24日，Anthropic低调发布RSP第三版（RSP 3.0）。

与前两版相比，此次更新的关键变化是，那条被视为“硬性红线”的暂停训练承诺从文件中消失了。

原政策逻辑清晰：一旦模型能力触及预设危险阈值（如具备协助生物武器研发的科学理解能力），公司必须暂停新模型训练，直到相应安全防护措施就绪。这是一种“if-then”的条件约束机制，如同给自己上了一道锁。

2023年RSP中“暂停训练承诺”原文为：“The ASL framework implicitly requires us to temporarily pause training more powerful models if we are unable to put the required safety measures in place to safely handle the capabilities of the next AI Safety Level.”（核心是若无法及时部署所需安全措施，必须暂时暂停训练更强模型）

新版本中，这道锁不见了。

在2026年2月24日的博客及RSP 3.0正文中，“暂停训练”的承诺不再出现，取而代之的是以前沿安全路线图、风险报告与外部评审为核心的透明度机制。

这意味着一套更“灵活”的框架：前沿安全路线图、风险报告机制、非约束性公开承诺。简单来说，锁变成了旋转门，从“做不到就不许动”转变为“边做边说、透明披露”。

Anthropic对此次调整给出了解释：

“We are restructuring our Responsible Scaling Policy into two components:

(1) commitments we believe Anthropic can uphold regardless of what others do, and

(2)a more ambitious set of recommendations that would require coordinated action across industry and government.”

以及：

“As we approach higher AI Safety Levels, it becomes increasingly difficult to specify in advance the exact safeguards that will be required.”

“我们正在将《负责任扩展政策》重构为两个部分：

1）我们认为无论其他机构如何行动，Anthropic都能自行履行的承诺；

2）一套更具雄心的建议方案，其落实需要行业与政府的协调行动。

随着我们逐步接近更高等级的AI安全级别，事先精确界定所需的具体安全防护措施将愈发困难。”

简言之，Anthropic发现原设定的能力阈值“比预期更模糊”。模型能力是连续增长的，不会突然“越过”清晰红线。既然边界本就模糊，刚性暂停机制便失去了可操作性。

这一解释有一定道理，但问题在于：若边界本就模糊，为何两年前要以此承诺为“招牌”，又为何偏偏在此时修改？

02 OpenAI也曾悄悄修改使命表述

无独有偶，OpenAI也有类似动作。

OpenAI 2024年度IRS表格（990表）于2025年11月公开，覆盖2024财年。在这份文件中，“safely”一词首次从使命陈述中消失。

旧版本使命为：构建安全的、造福全人类的通用人工智能，不受财务回报需求约束。

新版本删掉了“safely（安全地）”一词，变为：确保通用人工智能造福全人类。

有人认为这是小题大做，一个副词的删改无需敏感。但也有评论指出，OpenAI从非营利机构转型为“封顶利润公司”时，“安全”是说服外界自己未迷失的最后防线。

如今这道防线也撤了，底线何在？

03 资本与竞争压力下的妥协？

将两件事放在一起看，两家竞争对手的动作出奇一致。

在RSP 3.0发布两周前，Anthropic宣布完成300亿美元融资，估值升至约3800亿美元。据媒体报道，OpenAI也在敲定新一轮融资，估值或高达8300亿美元。这两家公司已不再是靠信念驱动的AI研究机构，而是背负巨大市值预期的商业实体。

在这样的体量下，“暂停训练”意味着暂停产品迭代、商业落地和估值增长预期。Anthropic首席科学家Jared Kaplan的话或许最能体现这种现实压力：“如果竞争对手飞速前进，我们单方面承诺暂停训练没有意义。”

AI竞赛已不只是头部公司间的商业博弈，开源社区、各国都在快速推进，没有哪家公司能靠“先暂停”换取全行业同步冷静。

Anthropic在官方说明中也坦承，最初设想的“由我们设立安全标准，其他公司跟进”并未完全实现。尽管OpenAI和Google DeepMind建立了类似框架，但更多是形式对标，而非实质约束。

更重要的是，监管环境也在变化。Anthropic在文件中明确提到，当前政治气候对监管不友好，政府行动迟缓，企业不愿单方面承担安全成本。

这是一个现实且令人不安的问题。

04 “透明披露”能否替代“硬性约束”？

Anthropic一再强调，RSP 3.0并非放弃安全，而是换了更成熟的方式，即从刚性承诺转向透明机制。

这种说法有一定道理。原版本确实存在缺陷：能力阈值模糊，暂停时机难判断，执行层面有模糊地带。将不可执行的承诺继续保留，除维持公关形象外，实际意义有限。

RSP 3.0保留了诸多实质性安全机制。例如，Anthropic已于2025年5月正式激活ASL-3级防护标准，针对化学和生物武器风险的专项防护措施，包括一套复杂的输入输出分类器，用于拦截可能被滥用的内容。这项工作真实存在，并非口号。

但批评者的担忧也有其合理性。

硬性约束与透明披露本质不同。

硬性约束是“做不到就必须停止”，价值在于提前锁死选项，让决策者在压力面前无路可退。透明披露是“你可以知道我在做什么”，依赖外部舆论压力和内部自律。

问题在于：当资本压力足够大、竞争焦虑足够强时，透明披露能否真正约束实际行为？

05 谁来为AI设安全红线？

有一种更悲观的解读：2026年，AI安全正越来越成为一种公关语言。

几乎所有主流AI公司都有“安全框架”“负责任使用政策”和听起来严肃的承诺文件。但这些文件是为了约束自己，还是为了告诉监管机构和公众“我们已在管理，是负责任的，你们无需‘操心’”？

Anthropic和OpenAI有权修改自己的“安全框架”，在真正的商业压力面前，安全承诺的边界是可以移动的。

回头看2023年Anthropic发布RSP 1.0时的逻辑，其实预设了一个重要前提：政府和社会会跟上。

原设想是：企业率先设立安全标准，推动行业形成自律共识，同时为监管机构提供参考蓝本，最终形成政府层面的多边协调机制。

这条路并未完全走通。

监管跟不上技术和商业的变化，安全共识在消散，竞争在加速。企业单方面守住安全红线的成本越来越高，外部约束机制尚未建立。

在这个真空期，没人能给出清晰答案：若企业不再设红线，谁来设？

Anthropic的联合创始人正是因担心AI失控离开OpenAI，创立了这家公司。他们的初心是成为AI竞赛中“负责任的参与者”。

两年多过去，他们仍在做大量严肃的安全研究，内部仍有一批真正在意这些问题的工程师和研究员在推动。RSP 3.0也保留了相当多的实质性安全机制。

但底线会越来越低吗？

在一个没人愿意踩刹车的赛道上，所有人都在加速，这场比赛会驶向何方，无人知晓。

本文来自微信公众号“腾讯科技”，作者：值得关注的，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

从54亿到24亿，花西子的核心症结究竟何在？

超级渠道崛起，传统品牌面临生存挑战？

全力布局AI！又一个万亿工业大区呼之欲出

黄仁勋宣告智能体AI拐点降临，英伟达Q4财报再破纪录

携程的变与不变：平台经济的价值重构之路

项目推荐

梯影传媒

AI云印侠

宾果智能