揭秘Cloudflare突发全球故障原因：官方称非网络攻击

2025-11-20

IT之家11月19日消息，Cloudflare是一家提供关键互联网基础设施服务的公司，昨晚突发全球故障，包括社交平台X（原Twitter）和OpenAI的ChatGPT在内的多个网站用户均出现服务问题，被IT之家小伙伴调侃：上次Amazon挂壁带走了半个互联网，这次Cloudflare带走了剩下半个。

随后，Cloudflare官方发布博客，解释了昨晚全球故障的原因。

世界标准时间2025年11月18日11:20（IT之家注：北京时间19:20），Cloudflare的网络开始出现无法传输核心网络流量的重要故障。这表现为尝试访问客户站点的互联网用户看到的错误页面，显示Cloudflare网络内部出现故障。

Cloudflare官方表示，该问题并非由任何形式的网络攻击或恶意活动直接或间接引起。相反，它是由Cloudflare数据库系统权限的变更触发的，该变更导致数据库向Cloudflare机器人管理系统使用的“功能文件（feature file）”中输出多个条目。该功能文件随后大小翻倍。预期之外的大文件随后被传播到构成网络的全部机器上。

运行在这些机器上的软件用于跨网络路由流量，它会读取这个功能文件，以使Bot Management系统能够及时应对不断变化的威胁。该软件对功能文件的大小有限制，这个限制低于其两倍的大小，导致了软件失效。

Cloudflare官方最初错误地怀疑是由超大规模DDoS攻击引起的，随后正确识别了核心问题，并用该文件的早期版本进行了替换。到了北京时间22:30，核心流量基本恢复正常。在接下来的几个小时内，官方努力减轻网络各部分的负载，随着流量重新上线。截至北京时间11月19日01:06，Cloudflare的所有系统均恢复正常运行。

下图展示了Cloudflare网络提供的5xx错误HTTP状态代码的数量。正常情况下，这个数值应该非常低，并且在停机开始之前也是如此。

图中11:20（北京时间19:20）之前的量是网络观察到5xx错误的预期基准。峰值以及随后的波动表明系统由于加载了错误的特性文件而失效。值得注意的是，系统在一段时间后会自动恢复，然后又挂掉。这对于内部错误来说是非常不寻常的行为。

官方解释称，该文件每五分钟由一个在ClickHouse数据库集群上运行的查询生成，该集群正在逐步更新以改进权限管理。只有当查询运行在已更新集群部分时才会生成错误数据。因此，每五分钟都有可能生成一组良好或错误的配置文件，并迅速在网络中传播。

错误持续到14:30（北京时间22:30），直到官方识别并解决了根本问题，通过停止不良功能文件的生成和传播，并将一个已知良好的文件手动插入到功能文件分发队列中，解决了这个问题。然后强制重启了核心代理。

IT之家附受影响的服务如下：

服务 / 产品

影响描述

核心CDN和安全服务

HTTP 5xx状态码。这篇帖子顶部的屏幕截图显示了典型错误页面，该页面会传递给终端用户。

Turnstile

Turnstile加载失败。

Workers KV

Workers KV返回了显著升高的HTTP 5xx错误，因为对KV的“前端”网关的请求由于核心代理故障而失败。

控制面板

虽然仪表盘基本可以正常工作，但由于登录页面上的Turnstile不可用，大多数用户无法登录。

电子邮件安全

虽然电子邮件处理和投递未受影响，但官方观察到某个IP信誉源的临时访问中断，这降低了垃圾邮件检测的准确性，并阻止了一些新域名年龄检测的触发，但未观察到对客户的关键影响。官方还发现一些自动迁移操作出现故障；所有受影响的邮件已进行审查和修复。

访问

对于大多数用户，身份验证失败普遍存在，从事件开始一直持续到13:05（北京时间21:05）回滚操作启动时。现有的访问会话未受影响。

所有失败的认证尝试都导致显示错误页面，这意味着在认证失败期间，这些用户无法访问目标应用。在此期间成功的登录已被正确记录。

当时尝试进行的任何Access访问配置更新要么完全失败，要么传播非常缓慢。所有配置更新现已恢复。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

速来参与！河北省城乡居民基本养老保险知识有奖竞答开启

九牧揽获品牌与销量“双第一”，如何树立智能马桶新标杆？

年度奢华派对：开启销售热潮与多元体验

萤火虫右舵版量产车曝光，即将发往新加坡

折叠屏iPhone电池容量创新高：起步5400mAh

项目推荐

康小虎 · 健康小屋

康老板 · 氧疗堂