2025年12月5日,作为现代互联网核心支柱之一的Cloudflare再次遭遇重大故障,导致大量网络内容短暂瘫痪。对于网站所有者、SRE团队和普通用户而言,这无疑是一次惨痛的教训,让我们意识到“永远在线”的互联网其实非常脆弱。
以下将深入分析事件经过、重要性以及基础设施和应用团队可以从中汲取的教训。
简要回顾:2025年12月5日发生了什么?
2025年12月5日上午,Cloudflare遭遇全球服务中断,导致许多网站在几分钟内显示空白或错误页面。此次故障影响了众多主要服务,包括LinkedIn、Zoom、Coinbase、Canva、Groww、BookMyShow等平台,具体受影响情况取决于所在地区和互联方式。AP News+1
新闻编辑室和监控网站报告称:
用户访问受影响网站时,看到的不是正常内容,而是“空白页面”。天空新闻+1
依赖 Cloudflare 边缘网络的网站和 API 出现 5xx 错误激增和连接问题。搜索引擎杂志
不仅客户流量受到影响,Cloudflare 自身的控制面板和 API 也出现故障,导致客户最需要的时候,其可观测性和控制能力下降。美联社+1
虽然此次故障持续时间很短——根据早期报道,大约在格林威治标准时间 08:47 至 09:13——但其影响范围之广,足以短暂影响 Coinbase 和 Anthropic 的 Claude AI 等关键平台,并导致 Cloudflare 的股价在盘前交易中下跌约 4% 至 4.5%。路透社+1
Cloudflare 声明:
此次事件并非由网络攻击引起。
其根源在于 Cloudflare 为应对新披露的 React 服务器组件 (RSC) 漏洞而对防火墙请求处理方式进行的内部更改。路透社+1
换句话说:Cloudflare出于安全考虑对其防火墙逻辑进行的一项更改,引入了一个副作用,导致其网络的大部分区域暂时无法访问。
究竟是什么出了问题?
从用户的角度来看,主要症状有两个:
主要网站返回错误页面或空白页面
大量网站显示HTTP 5xx错误,或者只是显示空白/白页,没有任何内容。天空新闻+1
对于某些平台而言,这意味着登录页面无法加载、控制面板无法渲染或API超时。
Cloudflare自身的控制平面性能下降
Cloudflare控制面板及其相关API也受到影响,限制了客户更改配置或查看实时动态的能力。美联社+1
从技术层面来看,Cloudflare的早期声明和媒体报道都指出,此次更改是为了缓解React服务器组件中的一个漏洞,而防火墙处理请求的方式也发生了变化。这一更改无意中导致Cloudflare的网络在几分钟内无法正常处理流量。路透社+1
即使是服务于众多网站的服务商出现短暂中断,也会引发连锁故障:
浏览器重试连接,导致负载增加。
依赖的后端服务器出现峰值负载、队列积压或超时。
监控工具会迅速向值班工程师发送大量警报,但由于可观测性堆栈本身也可能依赖于 Cloudflare,因此这些警报往往包含不完整或误导性的数据。
此次故障的特殊之处在于:“三周内发生的第二次重大事件”
这并非孤立故障。它发生在 2025 年 11 月 18 日 Cloudflare 一次规模更大的故障不到三周之后。
3.1 2025 年 11 月 18 日的故障(背景)
2025 年 11 月 18 日,Cloudflare 遭遇了一次重大故障,导致:
全球范围内出现大量 5xx 错误,许多网站的性能下降。
受影响的知名平台包括 X(前身为 Twitter)和 OpenAI/ChatGPT 等。Decodo
经追溯,问题源于 Bot Management 功能文件生成逻辑中的一个漏洞,该漏洞影响了 Cloudflare 的多项关键服务。Cloudflare 博客+1
Cloudflare 随后发布了一份详细的事后分析报告,解释说 Bot Management 配置文件导致了内部系统的级联故障——这是一个典型的单个配置项出错导致关键流量路径中断的案例。Cloudflare 博客
3.2 12 月 5 日 vs 11 月 18 日:模式相似,触发因素不同
对比两次事件:
2025 年 11 月 18 日
触发因素:Bot Management 功能文件生成中的漏洞。Cloudflare 博客+1
影响:大量 5xx 错误、配置管道问题、全球中断。
2025 年 12 月 5 日
触发因素:为缓解 React Server Components 漏洞而推出的防火墙处理变更。路透社+1
影响:短暂但范围广泛的服务中断,页面空白,Cloudflare 控制面板/API 出现问题。
对客户而言,两者的区别并不重要:这两起事件都是典型的控制平面驱动型故障,提供商层面的配置或安全变更导致了系统范围内的影响。
这种模式并非 Cloudflare 独有
Cloudflare 并非个例。过去几年,我们目睹了一系列互联网规模的服务中断事件。
主要供应商的配置错误、软件更新或安全缓解措施都可能导致网络中断:
Cloudflare、微软、亚马逊和 CrowdStrike 都曾发生过波及数千个依赖服务的事件。(路透社+1)
一项对互联网中断的分析指出,仅在 2020 年代上半年就发生了数十起重大的全球性网络中断事件,这凸显了依赖少数基础设施供应商所带来的日益增长的集中风险。(TrueSolvers)
此次 Cloudflare 故障印证了一个更大的趋势:
我们越是将安全、DNS、CDN 和边缘计算集中在少数供应商手中,单个配置错误就越有可能演变成整个互联网的系统性风险。
12 月 5 日故障的技术教训
从有限的公开信息中,我们已经可以总结出一些与 SRE、DevOps 和平台团队相关的技术教训。
5.1 安全变更需要像代码部署一样严格遵守规范
根本原因是防火墙请求处理变更,该变更是为了缓解 React 服务器组件漏洞而部署的。路透社+1
要点:
安全修复 = 生产环境变更
出于安全考虑的配置更新必须与常规功能变更一样,经过相同的部署、测试和防护措施。“这只是一个安全补丁”并不能成为绕过常规控制的理由。
分阶段部署和影响范围控制
任何对全局防火墙行为的更改都应:
首先部署到部分接入点或客户。
通过功能标志和即时回滚机制进行保护。
使用特定的金丝雀指标(例如,5xx 错误率、TTFB、空页率)进行监控,以便在几秒钟内捕获故障。
5.2 控制平面的稳健性与数据平面的正常运行时间同等重要
Cloudflare 的控制面板和 API 在此次事件中也出现故障,这尤其令人痛心。美联社新闻+1
对于运营商而言,这意味着:
您需要带外或独立于提供商的方式来:
切换 DNS。
绕过或禁用故障层(例如,暂时直接访问源站)。
即使服务提供商的 UI/API 离线,也要访问日志和指标。
如果解决问题的唯一方法依赖于当前已损坏的基础设施,那么您就失去了一个关键的安全保障。
5.3 配置工件可能与代码一样危险
11 月 18 日和 12 月 5 日的事件都具有相同的结构模式:
配置或策略工件(Bot 管理文件/防火墙规则行为)
通过全局自动化部署
大规模地与生产流量发生不良交互。Cloudflare 博客 + 2Decodo + 2
教训:对待配置要像对待代码一样严格:
版本控制、代码审查和测试。
在预发布环境中使用真实流量重放进行验证。
限制任何单个错误配置的影响范围。
这对依赖 Cloudflare 的公司意味着什么?
大多数组织无法简单地“停止使用 Cloudflare”。它与以下功能深度集成:
DNS 和任播路由
DDoS 防护
WAF 和机器人管理
CDN 和缓存
零信任访问、WARP、Workers、Workers AI 等。Cloudflare 博客
但您可以降低未来故障的影响。
6.1 梳理您的 Cloudflare 依赖关系
首先,了解您对 Cloudflare 的依赖程度:
您的 DNS 是否完全托管在 Cloudflare?
您是否仅在 Cloudflare 终止 TLS,还是也在源站终止?
关键 API 是否仅通过 Cloudflare 公开访问?
内部团队是否依赖 Cloudflare Tunnel/Access/WARP 来访问敏感服务?
例如,在 2025 年 6 月 12 日的故障中,Cloudflare 指出 Workers KV、WARP、Access、Gateway、Images、Stream、Workers AI、Turnstile、Zaraz 以及部分 Dashboard 功能受到影响——这提醒我们,有多少层服务可能依赖于单一供应商。Cloudflare 博客
6.2 规划 DNS 和 CDN 故障转移
对于高价值服务,请考虑:
使用备用 DNS 服务器,并选择其他能够快速接管的供应商。
采用多 CDN 或 CDN 旁路策略,以便在 Cloudflare 发生故障时,您可以:
将流量直接指向源服务器。
或者将流量转移到备用 CDN,即使性能暂时下降。
这些措施通常需要付出成本和复杂性,但对于关键业务服务而言,其带来的弹性是值得的。
6.3 构建应用级弹性
即使边缘节点出现故障,您的应用也能更优雅地应对:
提供缓存的静态错误页面,解释故障情况,而不是空白响应。
构建客户端重试逻辑,逐步减少尝试次数,而不是不断尝试访问故障边缘节点。
解耦非关键功能(分析、第三方脚本、深度个性化),以便快速禁用它们。
6.4 运维:将服务商故障视为日常运营场景
将本次故障和 11 月 18 日的故障作为日常运营场景的素材:
您能多快地判断问题是出在 Cloudflare 还是您自己的源站?
值班手册是否包含:
Cloudflare 状态页面链接和您的服务商联系方式?Cloudflare 状态+1
预先批准的绕过或重新路由流量的步骤?
您是否在监控?
外部检查未经 Cloudflare 处理就攻击您的服务?
Cloudflare 可能如何应对
Cloudflare 历来都会发布重大事件的详细事后分析报告(例如,2024 年 6 月 20 日和 2024 年 6 月 27 日的事件,以及 2025 年 6 月 12 日和 2025 年 11 月 18 日的故障)。
基于此模式,我们可以合理预期:
一篇技术博客文章,解释:
防火墙逻辑的具体变更。
React 服务器组件漏洞的缓解措施为何出现异常行为。
不同地区受影响的持续时间。
一系列补救措施,例如:
更严格的配置验证和测试。
更严格的分阶段部署和自动回滚触发器。
更好地将服务于客户流量的系统与支持仪表盘和 API 的系统分离。
对客户而言,这种透明度固然重要,但这并不意味着客户无需在自身架构中考虑供应商故障。
更宏观的视角:集中化与弹性
12 月 5 日的故障只是行业内正在进行的一场更广泛讨论的一部分:
我们已将大量的路由、DNS、安全、WAF 和内容分发集中到少数几家供应商手中。
如今,Cloudflare、Azure、AWS 或 CrowdStrike 的每一次重大事件都如同金融系统遭受冲击:它不仅会瘫痪一个网站,还会短暂地冲击整个数字经济。
对于监管机构和大型企业而言,这引发了以下问题:
集中风险——关键基础设施在多大程度上应该强制采用多供应商冗余?
透明度和问责制——供应商分享根本原因细节的速度和清晰度如何?
投资韧性——我们在安全防护措施上的投入是否足够,还是更多地投入到新功能的发布上?
总结
总而言之,Cloudflare 于 2025 年 12 月 5 日发生的最新重大故障可概括如下:
这是一次全球性但短暂的服务中断,由内部防火墙处理变更引起,该变更作为安全响应的一部分部署。
用户会看到主要网站出现空白页面和 5xx 错误,Cloudflare 自身的控制面板和 API 也出现故障。
这是不到三周内发生的第二起重大事件,此前在 2025 年 11 月 18 日发生了规模更大的与机器人管理相关的服务中断。
这再次印证了基础设施集中风险的存在,少数供应商的配置错误就可能导致所有人的网络短暂瘫痪。
对于依赖 Cloudflare 的公司而言,核心信息并非“惊慌失措地迁移”,而是:
假设您的供应商可能会出现故障,并设计您的架构、运营和业务流程,使短暂的故障不会演变成生存危机。


11561
IT Pro 



















