揭秘Cloudflare突发全球故障原因:官方称非网络攻击

2025-11-20

IT之家11月19日消息,Cloudflare是一家提供关键互联网基础设施服务的公司,昨晚突发全球故障,包括社交平台X(原Twitter)和OpenAI的ChatGPT在内的多个网站用户均出现服务问题,被IT之家小伙伴调侃:上次Amazon挂壁带走了半个互联网,这次Cloudflare带走了剩下半个。


随后,Cloudflare官方发布博客,解释了昨晚全球故障的原因。


世界标准时间2025年11月18日11:20(IT之家注:北京时间19:20),Cloudflare的网络开始出现无法传输核心网络流量的重要故障。这表现为尝试访问客户站点的互联网用户看到的错误页面,显示Cloudflare网络内部出现故障。


Cloudflare官方表示,该问题并非由任何形式的网络攻击或恶意活动直接或间接引起。相反,它是由Cloudflare数据库系统权限的变更触发的,该变更导致数据库向Cloudflare机器人管理系统使用的“功能文件(feature file)”中输出多个条目。该功能文件随后大小翻倍。预期之外的大文件随后被传播到构成网络的全部机器上。


运行在这些机器上的软件用于跨网络路由流量,它会读取这个功能文件,以使Bot Management系统能够及时应对不断变化的威胁。该软件对功能文件的大小有限制,这个限制低于其两倍的大小,导致了软件失效


Cloudflare官方最初错误地怀疑是由超大规模DDoS攻击引起的,随后正确识别了核心问题,并用该文件的早期版本进行了替换。到了北京时间22:30,核心流量基本恢复正常。在接下来的几个小时内,官方努力减轻网络各部分的负载,随着流量重新上线。截至北京时间11月19日01:06,Cloudflare的所有系统均恢复正常运行。


下图展示了Cloudflare网络提供的5xx错误HTTP状态代码的数量。正常情况下,这个数值应该非常低,并且在停机开始之前也是如此。


图中11:20(北京时间19:20)之前的量是网络观察到5xx错误的预期基准。峰值以及随后的波动表明系统由于加载了错误的特性文件而失效。值得注意的是,系统在一段时间后会自动恢复,然后又挂掉。这对于内部错误来说是非常不寻常的行为。


官方解释称,该文件每五分钟由一个在ClickHouse数据库集群上运行的查询生成,该集群正在逐步更新以改进权限管理。只有当查询运行在已更新集群部分时才会生成错误数据。因此,每五分钟都有可能生成一组良好或错误的配置文件,并迅速在网络中传播


错误持续到14:30(北京时间22:30),直到官方识别并解决了根本问题,通过停止不良功能文件的生成和传播,并将一个已知良好的文件手动插入到功能文件分发队列中,解决了这个问题。然后强制重启了核心代理。


IT之家附受影响的服务如下:


服务 / 产品


影响描述


核心CDN和安全服务


HTTP 5xx状态码。这篇帖子顶部的屏幕截图显示了典型错误页面,该页面会传递给终端用户。


Turnstile


Turnstile加载失败。


Workers KV


Workers KV返回了显著升高的HTTP 5xx错误,因为对KV的“前端”网关的请求由于核心代理故障而失败。


控制面板


虽然仪表盘基本可以正常工作,但由于登录页面上的Turnstile不可用,大多数用户无法登录。


电子邮件安全


虽然电子邮件处理和投递未受影响,但官方观察到某个IP信誉源的临时访问中断,这降低了垃圾邮件检测的准确性,并阻止了一些新域名年龄检测的触发,但未观察到对客户的关键影响。官方还发现一些自动迁移操作出现故障;所有受影响的邮件已进行审查和修复。


访问


对于大多数用户,身份验证失败普遍存在,从事件开始一直持续到13:05(北京时间21:05)回滚操作启动时。现有的访问会话未受影响。


所有失败的认证尝试都导致显示错误页面,这意味着在认证失败期间,这些用户无法访问目标应用。在此期间成功的登录已被正确记录。


当时尝试进行的任何Access访问配置更新要么完全失败,要么传播非常缓慢。所有配置更新现已恢复。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com