Claude全球宕机背后:AI基础设施的系统性脆弱性暴露

3分钟前
北京时间2026年3月2日晚19点49分,Anthropic旗下的AI助手Claude在全球范围内突发大面积服务中断。无论是claude.ai网页端、开发者控制台,还是AI编程工具Claude Code与移动端应用,几乎同时出现故障提示。数千名用户涌向Downdetector平台报告问题,高峰期报障量达数千条。用户登录时,屏幕上显示的要么是HTTP 500、529错误码,要么是一句简短的提示:“Claude will return soon.”



对于全球数百万已将Claude深度融入日常工作流的开发者、内容创作者和企业用户来说,这次宕机带来的体验,更像是一场“大面积停电”。


社交媒体上,有人自嘲“现在只会写prompt,这可怎么办”;有开发者表示,工作进行到一半突然中断,只能临时切换到ChatGPT或Gemini应急;还有人在群里调侃:“那些AI原生的公司,今天不如去团建算了。”



01 “打地鼠式”的宕机过程


尽管Anthropic官方至今未详细说明宕机的具体原因,但过去一周发生的一系列事件或许能提供一些线索。


2月28日,Anthropic因拒绝将Claude用于大规模国内监控和全自主武器系统,失去了与美国五角大楼的合同。特朗普总统随即在社交媒体上指责Anthropic是“左翼疯子”,并下令所有联邦机构停止使用Claude。OpenAI则迅速接手,宣布与五角大楼达成合作协议。


这一事件在全球用户群体中引发了戏剧性的反转。一场名为“QuitGPT”的抵制运动在Reddit、Instagram和X.com上迅速蔓延。Reddit上一条呼吁取消ChatGPT的帖子获得了3万个赞,Instagram账号“quitGPT”短时间内吸引了超过78000名关注者。


据Tom's Guide报道,约70万用户开始从ChatGPT转投其他平台,Anthropic成为了这场数字迁徙的最大受益者。


根据Anthropic官方披露的数据,自2026年1月以来,Claude免费用户数量增长超过60%,每日新注册用户数较2025年11月翻了三倍,付费订阅用户在年内已经翻倍。在超级碗LX之前,Claude在美国App Store的排名还在第42位;到2月28日,它登上了免费应用排行榜第一名,将ChatGPT挤到了第二。


这波用户增长来得过于迅猛。从Sensor Tower的数据来看,Claude在整个2月都处于快速攀升通道,但最后几天的用户涌入量远超Anthropic基础设施的承载预期。


外媒在报道中引用Anthropic的说法称,公司在过去一周一直在应对“前所未有的需求”。



图:Downdetector中Claude报障飙升曲线


从Anthropic官方状态页面的时间线来看,故障的演进呈现出“打地鼠”式的特征。


UTC11:49(北京时间19:49),团队开始调查问题,最初判断故障集中在claude.ai的登录和登出路径。


UTC12:21(北京时间20:21),Anthropic宣称核心API运转正常,问题仅限于Web端。


UTC 13:37(北京时间21:37),情况出现恶化,部分API方法也开始报错。


此后,Claude Opus 4.6模型在UTC 17:09出现异常,紧接着Claude Haiku 4.5在UTC 17:56也受到波及。修复、复发、再修复的循环持续了数小时。



直到UTC15:47(北京时间23:47)左右,主要服务才逐步恢复。随后Opus 4.6又出现多次短时elevated errors(其中一段延续到约21:16 UTC,即北京时间3月3日5:16)。


而仅仅几个小时后的UTC 3月3日凌晨3:15(北京时间11:15),新一轮故障再次出现,影响范围扩展到了Claude Code和Cowork,截至发稿时问题仍在调查中。



关于宕机的原因,还有媒体报道称,中东地区的AWS数据中心疑似遭受“不明物体”袭击导致起火断电,AWS算力池受到冲击,而高度依赖这些算力节点的Claude模型因此失去支撑。


图:AWS官方状态页的事故通告


远在中东的地缘冲突,为何可能引发美国AI公司的大规模宕机事件?


当下,AI服务的关键链路高度全球化且存在少数“咽喉点”:地缘冲突若导致红海—曼德海峡—苏伊士一带的海底光缆受损、区域网络受限,或波斯湾/阿拉伯半岛周边云数据中心与电力设施、跨境骨干网、海缆登陆站出现中断与拥塞,就可能引发跨区域的网络时延飙升、路由收敛异常、认证/计费/控制面访问失败,以及跨区复制和故障切换受阻。


而大模型推理与训练对带宽、低时延和云控制面依赖更强,一旦这些“底层要素”被扰动,原本分布式的云服务也会以连锁方式把故障放大为面向全球用户的系统性宕机。



图:海底光缆在波斯湾的“汇聚点”:TeleGeography海底光缆地图显示,阿联酋富查伊拉(Fujairah)与伊朗贾斯克(Jask)之间的UAE–Iran海缆只是其中一段,周边密集的光缆走廊把中东连接到欧洲与亚洲的主干网络;一旦该区域出现地缘冲突或基础设施扰动,全球数据链路的脆弱性会被放大。


更值得关注的是,Claude宕机当天,xAI官方状态页显示Grok(Web/iOS/Android)在同日约UTC23点前后也发生了约40分钟的“暂时不可用”事件。但两者是否存在共同上游或因果关联,目前缺乏公开证据。


这条链路如果属实,意味着这次宕机不仅仅是前端认证系统的问题,而是涉及底层云基础设施的物理脆弱性。在赛博空间里算力强大的大模型,在真实世界的“物理打击”面前显得格外脆弱。


02 下游生态的连锁反应


Claude这次宕机之所以引发如此大的关注,核心原因在于,AI已经从一个聊天机器人,变为一整条AI Native生产力链条的关键节点。


首先受到冲击的是开发者群体。Claude Code已经成为全球开发者最依赖的AI编程工具之一。据此前的报道,Claude Code产品年化收入估算约2亿美元量级。Anthropic的Claude Code创始人Boris Cherny曾在播客中透露,他自2025年11月起就再也没有手动编辑过一行代码。


当Claude Code完全不可用时,外媒报道社区普遍反应:开发者们被迫回到生成式AI出现之前的习惯,自己动手写代码。


专业开发者被迫在工作流中途切换到GitHub Copilot或ChatGPT的编码功能,但这种切换本身就意味着效率损失和上下文断裂。对于那些将Claude API深度集成到自有产品中的公司,影响更为直接。


虽然Anthropic声称API在大部分时间保持正常运转,但UTC 13:37的那段时间,API也出现了故障,这恰恰是那些没有多模型容错方案的企业失去所有AI功能的关键时刻。


内容创作领域同样遭受冲击。依赖Claude进行文案撰写、报告生成、数据分析的团队被迫暂停工作。客户服务机器人集体沉默,工单开始堆积。


据Deployflow的分析测算,对于一个25人规模的工程团队,即便按每小时90英镑的计费标准,4小时的服务中断也意味着超过9000英镑的生产力损失,还不包括下游的连锁延迟。


更深远的影响在于信任层面。ainvest的分析指出,重复性的服务中断正在侵蚀用户对平台可靠性的信任,尤其是对于那些在Claude之上构建业务的开发者和企业而言,持续的正常运行时间是最基本的要求。


那么,Claude究竟做了什么,让企业对它的依赖性如此之强?


让Claude从“好用的模型”变成“生态链核心”的,是Anthropic持续搭建的Agent基础设施。


据Anthropic官方2025年7月披露的数据,Claude Code发布四个月就吸引了11.5万开发者,每周处理1.95亿行代码,周下载量达300万次。


2026年1月刚刚发布的Claude Cowork则更激进:一个能点击鼠标、管理文件、跨软件执行任务的桌面智能体,配合11个覆盖法律、销售、财务等领域的行业插件,直接以“数字员工”的身份接管知识工作。


在底层,Anthropic推出的MCP协议正成为AI连接外部工具的事实标准,甚至竞品OpenAI和Google都先后宣布支持,围绕它已形成包含500多个商业应用连接器的生态。


Claude在当下不仅仅是一个模型API,而是包含了模型(智能大脑)+ Code/Cowork(执行)+ MCP(连接)构成的“AI操作系统”。


Claude在开发者和企业生态中渗透太深,让很多AI-Native公司形成了基础设施级别的系统性依赖,而这个基础设施的可靠性,还远没有达到它所承载的期望。


03 AI基础设施的脆弱性


这次Claude宕机事件并非孤例。研究机构Forrester在《2026年预测:云计算》报告中做出判断:AI数据中心的升级改造将在2026年触发至少两次重大的、持续多天的云服务中断。其中的逻辑是,AWS、Azure和Google Cloud等超大规模云服务商正在将投资重心从传统x86和ARM环境转向以GPU为中心的AI数据中心,而老化的基础设施在日益增长的复杂性下变得脆弱不堪。


Forrester还预测,至少15%的企业将在2026年转向私有云上的私有AI部署,以应对不断上升的成本、数据锁定和运营风险。


2025年已经给出了预警信号。AWS曾遭遇超过1700万Downdetector报告、持续超过15小时的大规模宕机,影响了Netflix、Snapchat等一系列服务。2025年11月,Cloudflare的服务中断导致包括Claude、Shopify、X在内的大量网站瘫痪。2025年12月,亚马逊自研的AI编程工具Kiro在自动修复一个客户面向系统时,自主决定删除并重建整个环境,触发了一次长达13小时的AWS Cost Explorer中断。单点故障引发的连锁反应,正在成为AI时代最危险的系统性风险。


这对整个行业的启示是多维度的。第一,多模型冗余不再是可选项,而是必选项。此次宕机中,那些提前部署了多LLM容错方案的企业,比如在Claude不可用时自动切换到Gemini或GPT等模型,受到的影响明显更小。未来的AI基础设施架构必须像今天的多云部署一样,将“模型冗余”纳入核心设计。


第二,观测能力至关重要。Deployflow的分析指出,Token延迟追踪和错误率飙升警报是预判服务崩溃的早期信号,能够让团队在全公司失去AI访问之前就进行切换。


第三,物理基础设施的安全性被严重低估。如果中东数据中心遇袭的因果链条成立,那么AI基础设施面临的威胁不仅来自软件层面,还包括地缘政治风险、物理攻击甚至自然灾害。


Forrester还指出了一个值得关注的趋势:“新云”(neoclouds),如CoreWeave、Lambda和Nebius等专注于高性能GPU的专业化云服务商,预计将在2026年获得200亿美元的收入,侵蚀超大规模云服务商在生成式AI领域的主导地位。


这些服务商从零开始构建GPU优先的架构,而非在旧数据中心上进行改造,可能为AI基础设施的韧性提供新的解题思路。


对于正在搭建AI基建的企业和平台而言,这次事件留下了清晰的教训:不要把所有鸡蛋放在一个篮子里,也不要假设任何一家供应商,能够提供100%的正常运行时间。


在AI成为真正的“水电煤”之前,它的基础设施必须先达到“水电煤”级别的可靠性。否则,每一次宕机都将是一次对整个生态的压力测试。


截至发稿,Claude服务仍存在间歇性故障,Anthropic还在持续调查中。


本文来自微信公众号“腾讯科技”,作者:晓静,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com