- 文章信息
- 作者: IT Pro
- 分类:Blog
- 点击数:5719
导言
NVIDIA又这样做了.
公司最近公布了财务结果,不仅打破了华尔街的预期,还粉碎了他们. 这证实了NVIDIA作为持续AI革命核心动力的立场.
收入大大高于分析家的预测,主要原因是数据中心GPU的需求猛增,AI投资加速,以及企业在高性能计算基础设施方面的支出记录。
但NVIDIA的过度表现并不仅仅是改善资产负债表。 它标志着整个技术景观的更深刻变化,从AI计算经济学到云定价模型,GPU短缺,以及公司如何构建未来AI动力产品.
NVIDIA的收入激增意味着什么,

NVIDIA 大规模边际超过的预期收入
在过去的几个季度里,NVIDIA表现出爆炸性的增长,主要是由AI和数据中心的需求驱动的,而不是游戏。
要点:
-
数据中心的划分现在 公司最大的收入引擎
-
AI培训和推论工作量成指数增长
-
超标器在GPU集群上花费很大
-
企业的收养还处于初期阶段
-
需求超过供应,并将持续多年
关于上下文:
NVIDIA如今的季度收入超过 全年合计 从几年前。
这是半导体工业前所未有的增长.
为什么分析师低估了NVIDIA(再次)
华尔街多次低估了NVIDIA,原因有三:
1. AI市场扩张快于预测
需求超过四分之一。
2. 云花已经转移
超规模人员正在围绕AI的工作量重建预算.
3. 企业需求正在加速
迅速采用大赦国际的行业包括:
-
财务
-
卫生保健
-
能源
-
后勤
-
辩护
-
网络安全
大赦国际已不再是“实验性的”。
它现在是战略基础设施。
收入激增的源头
数据中心 GPUs
这些是皇冠珠宝:
-
A100级
-
H100 级
-
H200 号
-
千兆赫200
-
即将到来的 B100 / B200
这些芯片的动力 全球几乎所有大规模人工智能培训。
云提供商
AWS,Microsoft Azure,Google Cloud,Oracle Cloud,Tencent,Alibaba——所有扩展的GPU车队都十分活跃.
模型开发者
-
开放AI
-
安东尼
-
梅塔人工智能
-
页:1 大赦国际
-
迷雾
-
代码
-
大赦国际
大量购买GPU。
企业AI建设
银行、医院、物流公司甚至政府现在都在购买计算组。
这已不仅仅是硅谷的杂音
AI市场的权力平衡如何改变
NVIDIA的粉碎结果证实了一个新的现实:
AI 计算=未来的核心基础设施
控制AI硬件控制的公司:
-
AI创新的步伐
-
示范培训经济学
-
获取计算能力
-
AI 启动可行性
-
对抗对手的竞争防御
NVIDIA不只是卖出硬件.
它正在塑造全球AI市场的方向。
GPU 供应短缺意味着什么
简短回答:
短缺情况在缓解之前会加剧。
因此:
-
AI投资加速
-
超标器正在存储 GPU
-
需求超过了面包机容量
-
需要更先进的包装
-
HBM供应仍然紧张
即使产量增加,需求也继续攀升。
期望 :
-
企业GPU等待时间长
-
云中的溢价定价
-
消费GPU价格保持高于正常水平
今年没有实现供应平衡。
也许明年也不会
对云市场的影响
NVIDIA的收入结果在云定价和云计算方面有着巨大的连锁效应。
云供应商会提高人工智能计算价格
需求允许。
GPU 实例将保持过量订阅
训练队列会增加
小的云可能会被挤出
NVIDIA提供优惠 巨头先。
AI-as-Service将扩大
推论托管
培训组
型号 API
GPU 租赁平台
Cloud AI定价现在直接依赖于NVIDIA的制造和运送硬件的能力.
对AI创业的影响
NVIDIA的爆炸性收益对AI创业企业来说既是好消息也是坏消息.
不错:
-
更多计算可用性
-
更多硬件投资
-
增加云容量
-
更快的模型改进
错误 :
-
较高的计算费用
-
更长时间的预定等待时间
-
大人物的竞争更大
-
AI生产周期的定价压力
赛事加剧.
而入道障已起.
对大技术的影响
微软、Meta、Google等公司正在进行战略转型:
人工智能计算现在被视为:
-
有竞争力的护城河
-
多年期CAPEX优先事项
-
国家优势资源
NVIDIA的收入跳跃证明超规模公司正在快速投资数十亿。
期望 :
-
更大的 GPU 集群
-
更多的区域AI超级计算机
-
更专有的模型
-
更多人工智能云平台
大赦国际已成为战略规划周期的中心。
NVIDIA 接下来要做什么
NVIDIA没有减速。
未来的主要催化剂包括:
-
Blackwell GPU 架构
-
次元AI加速器
-
CUDA生态系统继续锁定
-
HBM 内存整合推进
-
收养
-
边缘推论市场
-
汽车 AI 计算突起
关键是:
NVIDIA正在从芯片制造商 → 完全AI平台供应商进行转型.
软件+硬件+生态系统.
如何塑造AI的未来
NVIDIA击败预期重塑了行业假设:
AI增长没有放缓
它正在加速。
计算需求是结构性的
不是周期性的。
支出将继续增加
不是录音
AI的繁荣只是第一阶段
这是长达十年的扩张初期.
结论
NVIDIA超过收入预期不仅仅是一个金融里程碑——它是全球技术全景结构发生巨大变化的信号。
它确认:
-
AI是未来增长的核心动力,
-
数据中心GPU是世界上最宝贵的计算资源,
-
GPU的短缺将继续存在,
-
云定价模式将会演变
-
企业AI的采用正在世界范围内加速。
简而言之:
NVIDIA不仅受益于AI的繁荣.
纳米比亚 正在促成它。
NVIDIA将仍然是世界上战略上最重要的公司。
- 文章信息
- 作者: IT Pro
- 分类:Blog
- 点击数:5055
导言
现代计算在硅上运行,而GPU成为了新的黄金. 无论是游戏,AI研究,VFX,3D渲染,加密-挖掘,还是数据中心操作,对强大的图形处理器的需求在过去几年中都已经爆炸. 其结果是全球长期缺乏全球GPU,影响到从个人消费者到超大规模云供应商的每一个人。
始于供应中断的危机已演变为复杂、多层次的全球危机,涉及先进的半导体制造瓶颈、地缘政治制约、大规模AI投资、游戏需求、云消费飞涨和技术转型。
这篇文章破解 为何全球全球普惠机制仍然缺乏, (中文(简体) ). 为何新芯片仍然昂贵以及——最重要的是——何时(如果)这一短缺将最终结束。 。 。 。

1. 为什么GPU与其他芯片不同
GPU不是CPU. 星洲网.
它们要求:
-
更多晶体管每毫米2
-
更高级的平面图(下至3nm / 5nm)
-
高带宽内存集成(HBM)
-
高级包装(CoWOS、EMIB、3D-stacking)
-
缺陷容忍度极低
-
专门制造线
-
全球供应商有限
这意味着:
-
GPU生产不能简单地“扩大”
-
新工厂不能在一夜之间开工
-
只有少数公司能制造它们
95分血缘GPU的生产依赖于TSMC台湾半导体巨头
这是全球失败的单一点。
2. 是什么触发了短缺? (多波风.
GPU的短缺不是一个事件——这是一系列相重叠的波:
第1波-流行性供应中断(2020-2021)
工厂关闭。
航运冻结。
需求激增。
结果:大多数消费型GPU在发射时零库存.
第2波——加密采矿狂热
Ethereum采矿使GPU的需求通过屋顶.
赌徒与工业规模的采矿农场竞争.
价格涨了200分40分
第3波——云计算爆炸
超缩放器为AI大幅扩展了GPU容量:
-
自动取款机
-
谷歌云号
-
微软 Azure
-
神谕云
-
十进制云
-
阿里巴巴云
每一个超大号都订购了数百万个单位.
第4波-AI Gold Rush (2023-2025) (英语).
出现了:
-
聊天游戏
-
GPT-4号家庭
-
Llama 模型
-
稳定扩散
-
中途岛
-
各地的人工智能培训
将GPU转化为战略基础设施.
公司、政府和国防承包商参加了招标战争。
第5波-半导体 包装瓶式
CoWOS包装瓶颈 延迟了几个月的货运.
GPU的死亡是否就绪并不重要,
3. 为什么AI是现在的主要驱动器
这一点至关重要:
AI是当今高端GPU的一号消费者.
基因AI要求:
-
数十亿规模的培训参数
-
持续推论工作量
-
巨大的平行计算能力
-
高带宽内存吞吐量
培训前沿模式可能需要: 数以万计的H100/H200级GPU- 这是为 单人 型号。
然后,推断将消耗 更多 硬件随时间演变。
需求已经从全球的数千个单位增加到数十万个单位。
任何制造业都无法立即承受这种冲击。
4. NVIDIA 支配 = 市场博特伦克
NVIDIA 控制器 :
-
全球AI GPU市场的80-90%
-
几乎所有超大规模培训硬件
-
CUDA 生态系统锁定
GPU数量有限.
GPU的替代品有限.
GPU的转换成本是巨大的.
公司别无选择,只能等待和支付。
5. 为什么消费者和赌博GPU保持高价?
你会认为消费者的GPU 现在已经便宜了。
不过:
1. 制造业优先考虑数据中心GPU
(H100、GH200、B200等)
因为...
每个芯片的利润率 :
2 000美元+-30 000美元+
对
消费卡:
200美元-1 600美元
制造商更喜欢赚钱的芯片。
2. 赌博需求仍然很高
新的AAA头衔需要更多的权力.
3. 旧市场干燥
采矿倒塌淹没供应 一次- 但供应现在已经没了。
4. AI爱好者现在与游戏商竞争
· 提高价格。
6. 供应瓶颈
今天最大的制约因素是:
• 文学
只有TSMC,三星和英特尔可以建立高级节点.
• 包装能力
CoWOS是有限而复杂的.
• HBM生产
只有少数供应商供应:
-
SK 希尼克斯语Name
-
三星,三星,三星,三星,三星
-
微缩
产率很低。
• 库存消耗
不再存在仓库库存。
• 航运物流
硬件穿越了数十个步骤:
fab 包装 内存 板组装 测试 鉴定 分发
7. 地缘政治风险放大一切
GPU的生产在很大程度上依赖于台湾.
风险因素包括:
-
中国-台湾紧张局势
-
美国出口管制
-
制裁
-
贸易限制
-
芯片封锁政策
美国为中国控制AI芯片的访问.
中国现在正在积极地进行储备。
这又导致资源短缺。
8. GPU短缺实际上何时结束?
简短回答:
还不快
现实的时间表考虑:
2025 (英语).
-
供应限制略有放松
-
新墙开始有限坡道
-
更多HBM可用性
-
但AI的需求增长快于供应
2026 (英语).
-
完成额外包装线
-
一些地区看到价格稳定
-
机构积压减少
2027+ (英语).
-
下个源头上线
-
全球供应显著扩大
-
B. 缺 减 减
多数分析人员认为, 2026–2028 (中文(简体) ).。 。 。 。
2025年没有.
当然不是在2024-2025年。
9. GPU价格下降吗?
他们 将但慢慢地 - 因为:
-
公司仍然会支付保险费
-
高边际现在正常
-
AI的要求不会崩溃的
-
游戏周期继续
-
年度技术更新正在加速
价格倒塌仅发生于:
供应 > 需求
我们远远没有做到这一点。
10. 能否再次出现短缺?
是的,而且很简单。
最大风险触发器 :
-
台湾的冲突
-
AI 军备竞赛升级
-
出口禁令
-
HBM 短缺
-
后勤崩溃
-
新矿业繁荣
-
供应链网络攻击
半导体脆弱程度仍然极高。
结论
全球GPU短缺并不是暂时的不便——这是结构失衡导致的,它重塑了计算行业.
历史上第一次:
GPU比CPU更具战略重要性.
来自AI、云计算、游戏和工业模拟的需求已经超过了世界提供先进图形处理器的制造能力。 这一短缺很可能会持续到十年后半期,只有在新的法布、包装厂和记忆设施在全球成熟和稳定时才有所缓解。
短缺会结束吗?
对
但今年不会
明年不会
我们正处在一个多年的时间线上——世界AI的胃口仍在加速.
在生产最终超过需求之前,GPU仍将是技术界最珍贵、最昂贵的资产之一。
- 文章信息
- 作者: IT Pro
- 分类:Blog
- 点击数:5716
导言
在2025年,对AI特定数据中心基础设施投资的大规模激增是不容置疑的. 从技术巨头的数十亿资本承诺到主权基金都积极支持新的设施,世界数字经济正向“AI计算武器竞赛”的方向发展。 下面,我们探索驱动公司向AI-data-centre倒注数十亿的主要力量,支持转变的建筑和操作变化,商业模式如何适应,以及风险和未来对像你们这样的组织的影响(对基础设施,基准,计算卸载等有着浓厚的兴趣).

投资规模
为了抓住这一势头,这里有一些具有代表性的数据点:
-
微软计划 800亿美元 在2025年财政年度,建立由AI驱动的数据中心,特别是在美国。 路透社( 路透社)
-
全球数据中心投资繁荣与AI相关, 估计以万亿计:有一篇文章指出, 卫报
-
根据对数据中心投资者的2025年审查,布莱克斯通,拜仁资本等企业正积极将资本部署入大型超规模和GPU富含设施. STL 合作伙伴
这些数字表明,这不是递增的增长,而是基础设施的大规模战略性转变。
为什么是现在?
1. AI模型复杂性和需求的爆炸
大型语言模型(LLM)的兴起,基因-AI系统,模拟工作量和其他计算繁重的任务,从根本上改变了数据中心的需求状况:
-
需要大规模的培训和推断 质量 GPU集群,高密度机架,高级联网和冷却.
-
如一篇文章所描述的:“人工智能算法产生的每一个额外令牌都取决于这一层。” 增益
-
公司正在从以CPU为中心的传统工作量转向以GPU/ASIC为加速的工作量,这驱动着新的建筑要求(功率密度,冷却,连接).
简言之:计算需求在水平上(更多模型/用户)和垂直上(更大模型,更多参数,更多数据)都在增长.
2. 竞争优势和先行投资
对许多大型科技公司和云端供应商来说,
-
微软、亚马逊AWS、Google Cloud和Meta等公司并不满足于简单地 " 租赁 " 基础设施,它们正在建造自己的下一代设施,以获得运作、耐用、成本和控制方面的优势。 174 全球电力+1 键
-
对于企业(包括您自己的基准背景,GPU卸载,虚拟化等),拥有专用基础设施的接入提供了一种不同的方法:更快的模型迭代,更低的延迟推论,更高的吞吐量培训.
因此,公司现在愿意承诺“十亿”,以锁定这一未来价值。
3. 基础设施作为战略资产
数据中心不再仅仅是静态的“托管”资产,而是大赦国际的战略基础设施:
-
它们代表了寿命很长的资产(10年以上),并越来越多地被当作关键的工业基础设施(电力、冷却、纤维和可再生能源)处理。
-
投资者和基础设施基金正在转移:“顶级数据中心投资者”名单现在包括将数据中心视为核心增长平台的基础设施/实体资产公司。 STL 合作伙伴
-
AI计算的性质意味着,重要的不仅仅是“更多的服务器”,而是“在正确地点的正确服务器”(具有高效功率、低延迟、高带宽)。
因此,对于公司来说,建立正确的AI-data-centre往往意味着建设其企业的未来.
4. 能源、地点和规模经济学
大规模人工智能数据中心是电力密集、热能密集、空间密集的数据中心,并受益于规模经济:
-
一份技术文件显示,将AI数据中心与再生发电和智能能源管理系统合用同一地点可如何大大减少成本和环境影响。 阿尔谢夫
-
另一个显示分布式的,有网格意识的数据中心如何在吸收大量计算负荷的同时帮助稳定网格. 阿尔谢夫
-
战略位置、获得廉价/再生电力的机会、有利的电网政策、土地和所有许可。 试图以AI为中心的公司不仅在计算成本,而且还在计算“计算+能+冷却+房地产+连通性”成本。
5. 主权、监管和地缘战略关切
不仅在商业上而且在政治上计算问题:
-
最近对775个非美国数据中心的研究发现,控制数据中心基础设施(哪个国家,哪个运营商)日益成为数字主权的杠杆。 阿尔谢夫
-
一些国家明确试图吸引AI数据中心投资,以获取国内下游AI价值。
-
公司除了时间/成本之外,还在考虑风险:监管风险、出口管制、供应链限制——所有这些都推动拥有或严格控制基础设施。
" 准备就绪的数据中心 " 是什么意思 -- -- 关键的建筑转变
为AI工作量建造数据中心与传统的企业或云宿数据中心在实质上不同. 一些关键差异:
-
功率密度:AI机架每架可能需要数十千瓦,而不是少数. 冷却和电力分配必须支持这一点。
-
冷却系统:液体冷却,直取芯片冷却,浸润冷却现在对于密集的GPU集群越来越常见.
-
连接和间隔:大型GPU集群通常需要非常快的互联(NVLink,CXL,PCIe,高速以太网)和低纬度连接到存储,网络,边缘服务.
-
模块设计和快速部署:一些较新的运营商正在设计模块化的“GPU-pods”或集装箱化数据中心,以便它们能够迅速部署大容量。
-
二. 能源和可持续性基础设施:由于电力价格昂贵并日益被仔细审查,许多设施都同时配置了可再生能源,使用智能载荷转换,在有廉价电力的场地上建造,或者谈判大规模的电力交易.
-
专用硬件生命周期:与典型的服务器不同,AI集群依赖于GPU/加速器刷新周期(例如每~18-24个月),指基础设施必须支持升级,冷却,高密度的功率负载.
-
地点战略:接近AI模型研究中心,数据源,用户端点,并连接到云/hybrid设置物质.
对于您领域的任何人(AI基准,重的GPU用法,虚拟化等),外购是: 基础设施现在是一个主要的不同因素,而不仅仅是成本.
商业模式的影响——公司为何投资
从商业角度看,大量投资AI-data-centre基础设施的逻辑是属于几个桶:
• 促成新的收入来源
公司认为向AI的过渡是创建了新的业务线:模式培训,推论-as-service,企业AI咨询,边缘AI部署. 为了支持他们,你需要基础设施。 没有它,你的风险是依赖第三方。
• 费用控制和差值改进
公司通过拥有或控制优化于人工智能工作量的基础设施,旨在降低每个推论或培训时间的业务费用。 对于超规模公司来说,规模经济可以将成本降低到足以使新的服务具有有吸引力的幅度。
• 战略优势和锁定
基础设施投资创造了护城河:一旦一个组织拥有或控制了重大的AI计算能力,竞争对手就更难相匹配. 另外,与专有硬件,软件堆栈,自定义冷却等的集成也增加了切换成本.
• 支持内部创新
在你的GPU-offload世界中,AI基准化,虚拟化,工具开发:获得大型计算设施可以更快地迭接,更大的实验,以及内部的竞争优势. 这不仅仅是基础设施,
• 作为他人服务的基础设施
一些公司正在建设AI数据中心,以满足自己的需要。 和 向他人(如AI创业公司、SaaS公司)提供能力。 这种双重模式允许将过剩的能力货币化。
• 风险套期保值和控制
由于AI成为商业模式的核心,对外部供应商或云的依赖可能成为一个瓶颈或风险(相关性、数据主权、成本通膨等)。 投资基础设施是一种套期。
区域和工业动态
-
投资繁荣全球:亚太,欧洲,中东都寻求AI-compute校园. 例如,法国宣布进行重大投资,以“重返赛场”,专门开设AI-超级计算/数据中心校园。 世界报.fr
-
由于土地、电力或监管优势(特别是对能源密集型AI基础设施而言),新兴市场可能具有吸引力。
-
纯技术以外的行业也参与其中:金融服务、汽车、保健、制造业越来越多地投资于人工智能内部基础设施,从而刺激了对“人工智能数据中心”的需求。
主要挑战和风险
虽然理由很充分,但这些投资并非没有重大的风险和复杂性:
-
高资本强度:这是数十亿美元的承诺,在还清之前前景很长。
-
技术的迅速变化:AI的硬件,冷却,网络景观发展迅速;对今天的建筑的投资在几年内可能变得不尽人意(例如新一代GPU,新记忆/建筑,光学相通).
-
能源和可持续性压力:随着AI计算的增长,能耗和碳足迹也在增长. 监管者、社区和公司面临确保可持续性的压力。 报纸显示,可更新的“合用”数据中心可如何发挥作用,但它们也增加了复杂性。 阿尔谢夫
-
网格和权力限制:许多地区都在努力提供必要的电力或可靠的连接,或可能面临许可/电力合同的拖延。
-
地缘政治/监管风险:基础设施可能受到出口管制、数据主权法、政府干预。 研究非美国数据中心的论文表明操作者的国籍和控制很重要。 阿尔谢夫
-
需求不确定性:虽然对AI的需求正在增长,但未来工作量的确切形态,时间安排和业务模式仍然不确定. 如果需求变化不同,则有可能发生产能过剩或浪费。
-
冷却/热风险:随着机架密度的升高,冷却管理成为了非三角性(故障风险,降低热量,成本上升).
-
投资回报压力:投资者(基础设施基金、REIT等)正在评估AI-data-centre的收入模式将是什么,而不是“仅仅托管”。
这意味着什么(以及你应该考虑什么)
鉴于你对GPU基准、AI工作流程、虚拟化和基础设施的兴趣,
计划提高计算能力
-
如果您正在开发AI基准套件或卸载策略(GPU/CPU/DirectML/ONNX等),预计大型组织将越来越多地能够使用内部或外包的“AI准备”集群。
-
如果你只依赖商品云/虚拟化,你可能会发现与拥有自定义AI数据中心的组织相比,成本/性能次优.
基础设施战略应不断发展
-
考虑你的工作量运行在哪里: 内部集群对第三方对超规模的AI-data-centre.
-
评估您的基准或提供工具是否适应了新的“密集GPU集群”模式(例如高频宽互联、直通芯片冷却、架子 > 50千瓦)。
-
考虑可伸缩性,能耗,冷却和电力基础设施作为你堆叠的一部分(不仅仅是计算).
可持续性和能源应是规划的一部分
-
随着计算负荷的增加,能源/冷却成本也会增加。 在获得可再生能源的高效地点建设或使用人工智能基础设施,可能会对总汇和调度产生重大影响。
-
如果使用基准系统,则包括每推量能或每推量能。
供应商和硬件生态系统问题
-
组件供应链(GPU,ASICs,互联,内存)与大型数据中心部署的联系日益紧密. 这意味着你所衡量或开发的基础设施将迅速演变,并可能取决于伙伴关系或规模。
-
获取下源AI硬件(如为数据-中心尺度设计的GPU,自定义ASIC,CXL互通,液相冷却)可能是不同的.
减少风险战略
-
由于投资周期大而长,应考虑多样化(hybrid yuncle + on-prem + ledge),而不是假设所有计算会转移到“AI-数据中心”。
-
监控数据中心所在的监管/主权风险,
-
了解可能存在能力过剩的情况,这种情况可能会降低数据中心运营商的利润率(这可能影响可用性、定价)。
制定基准和工具机会
-
你对AI-Benchmark套件、GPU卸载和虚拟化的兴趣可以与“AI-data-centre”架构的新趋势相配合。 将有机会制定新架构的基准,比较 " 预想 " 和 " 云与AI专用数据中心 " ,模拟能源/成本/通量权衡。
-
在建立自己的AI-data-centre对超规模运营商的租赁能力有意义时,考虑建立有助于企业评估的模块/工具。
展望未来:看什么看
以下是一些前瞻性主题,公司和基准制定者(像你一样)应当监测:
-
建筑飞跃:下一代AI硬件(如更高效的GPU,自定义加速器,芯片,内存分解)会影响"AI-数据-中心"在2026-27年的含义.
-
Edge AI 数据中心:虽然大量投资用于超大规模校园,但边缘-AI(对用户关闭)可能会为低相关性推论驱动小型数据中心.
-
能源和冷却创新:相模冷却,液相冷却,再生同地,智能负载调度将随着动力成为限制因素而变得日益重要.
-
主权计算和区域中心: 更多政府可能出于主权/隐私原因鼓励地方AI数据中心的发展. 这可以打开新的市场并推进监管。
-
商业模式的演变:AI的“计算服务”模式可能会增长:企业购买定制集群用于AI培训/推论,而不是租用通用云容量.
-
可持续性和碳足迹: 随着AI计算的增长,关于能源、排放和可持续性的公开和监管审查将会增加——数据中心运营商将需要衡量和优化能源/性能指标。
-
过度建设的风险:与任何基础设施的繁荣一样,“太多架子追赶尚未成熟的工作量”的风险是真实存在的。 需求与能力的时间关系重大。
结论
2025年AI-data-centre的投资潮流不仅仅是云增长的延续,而是计算基础设施的建设、部署和货币化的结构性转变。 对于公司来说,将数十亿美元投入AI-data-centre能力的决定是由以下因素驱动的:
-
人工智能工作量的规模和速度。
-
拥有基础设施(或有优惠准入)的战略必要性使大赦国际拥有权力。
-
有利于大规模专门设施的规模、能源和业绩经济学。
-
数据中心作为战略性、竞争性资产而不仅仅是“服务器农场”的概念不断演变。
- 文章信息
- 作者: IT Pro
- 分类:Blog
- 点击数:6634
2025 年 11 月 18 日,互联网的一大块阵地坍塌了。
如果你打开 ChatGPT、X(Twitter)、英雄联盟、Shopify、Coinbase 或无数小型网站,迎接你的将是 Cloudflare 品牌的 5xx 错误页面,或者这些网站根本无法加载。起初看起来像是又一个 "互联网坏了 "的大事件,但事实证明它更微妙,而且在某些方面更令人担忧:Cloudflare 自己的基础设施深处出现了一个自找的错误。
以下是Cloudflare 昨日(2025 年 11 月 18 日)故障的详细经过、发生原因、影响对象以及基础设施团队应从中吸取的教训。

昨天到底发生了什么?
2025 年 11 月 18 日星期二,大约在世界协调时晚些时候,Cloudflare 开始对通过其网络的流量返回大量HTTP 5xx 服务器错误。对于终端用户来说,这意味着在尝试访问许多流行网站和应用程序时会出现 "内部服务器错误 "或 "网关错误 "页面。
根据 Cloudflare 自己的事故后博客,这次故障是
-
于11:28 UTC开始影响客户 HTTP 流量
-
核心 CDN 和安全服务普遍出现 5xx 错误
-
UTC时间13:05-14:30左右采取了主要缓解措施
-
(协调世界时)17:06 时,5xx 错误量恢复到基线水平Cloudflare 博客
Cloudflare 将其描述为2019 年以来最严重的故障,因为它不仅影响了一项功能或仪表板,还破坏了核心代理层,而该代理层通过其网络路由大部分客户流量。Cloudflare 博客
第三方监测证实了这一点。Cisco ThousandEyes 发现 Cloudflare 出现了全球性故障,X、OpenAI (ChatGPT) 和 Anthropic 等服务都出现了超时和 5xx 错误,而网络路径本身看起来是健康的。这强烈表明是后端服务故障,而不是 ISP 级或路由问题。千眼
谁受到了影响?
由于 Cloudflare 位于大量互联网的前端(约20% 的网站依赖 Cloudflare 提供性能和安全性),因此爆炸半径非常大。美联社新闻+1
受影响的服务包括
-
ChatGPT / OpenAI
-
X(前 Twitter)
-
Canva、Shopify、Dropbox、Coinbase
-
英雄联盟》和其他游戏平台
-
各种公共交通和政府网站,包括新泽西州交通局和法国 SNCF 铁路数字系统美联社新闻+1
Downdetector 等故障跟踪器在高峰期记录了数千份并发问题报告。路透社报道称,仅 X 系统就一度有约 5000 名用户受到影响,之后随着修复程序的推出,受影响用户数量有所下降。路透社
从用户的角度来看,这表现为
-
网站根本无法加载
-
登录流挂起或失败(尤其是涉及 Cloudflare Access 或 Turnstile 的情况)
-
API 响应断断续续或出现 5xx 错误
-
仪表板和管理面板超时
换句话说:尽管根本原因集中在单个提供商的内部系统,但互联网的大部分地区都 "感觉瘫痪 "了。
Cloudflare 通常是如何工作的(简单来说)
要了解这次故障如此严重的原因,了解请求通过 Cloudflare 网络的大致路径很有帮助。
Cloudflare 充当反向代理 CDN 和安全层:
-
您的浏览器或应用程序会连接到 Cloudflare,而不是直接连接到原始站点。
-
Cloudflare 在其边缘终止 TLS 和 HTTP。
-
请求流入 Cloudflare 的核心代理系统,即FL("前线")及其新一代FL2。
-
该核心代理系统
-
应用WAF(网络应用防火墙)规则
-
运行僵尸管理模型
-
处理DDoS 保护、缓存、出口到原点
-
将流量路由到其他内部产品,如Workers、R2、Access 等。Cloudflare 博客
-
在正常运行情况下,这种架构具有很强的弹性:如果一个数据中心出现问题,流量将通过其他数据中心进行路由;配置更改将谨慎推出;个别功能将以包含的方式出现故障。
昨天的故障之所以糟糕,正是因为故障发生在公共代理路径本身,而且与频繁自动向全球推送的配置文件密切相关。
根本原因:僵尸管理功能文件失控
Cloudflare 的官方解释指出了一个关键的罪魁祸首:
他们的僵尸管理系统使用的一个功能配置文件。Cloudflare 博客
以下是一连串事件的简要说明:
-
僵尸管理系统使用 "功能文件
-
Cloudflare 的僵尸检测模型依赖于一组 "特征"--每个请求的信号,用于判断是人类请求还是僵尸请求。
-
这些特征捆绑在一个配置文件中,每隔几分钟重新生成一次,并在全球范围内推广,因此 Cloudflare 可以快速适应新的攻击模式。Cloudflare 博客
-
-
ClickHouse 查询行为的变化
-
特征文件由针对 ClickHouse 数据库的查询生成。
-
Cloudflare 在世界协调时 11:05左右进行了更改,以提高分布式查询的安全性和权限--允许用户不仅查看
默认模式的元数据,还查看底层r0表的元数据。Cloudflare 博客 -
构建特征列表的查询没有按数据库名称进行过滤;突然,它开始从
默认和r0表中获取重复列,这实际上使特征行的数量增加了一倍。
-
-
特征文件大小爆炸
-
机器人管理模块对接受的特征数量有硬性限制(设置为 200,远高于通常使用的 ~60)。
-
当新生成的文件超过该限制时,由于在错误值上使用了
Result::unwrap()的 Rust 代码中出现了一个未处理的错误,模块触及了上限并陷入了恐慌。Cloudflare 博客
-
-
核心代理服务开始返回 5xx 错误
-
由于机器人管理已集成到核心代理路径中,因此对于依赖该模块的任何流量,恐慌都会以HTTP 5xx 响应的形式出现。
-
在新的FL2引擎上,客户看到了明确的 5xx 错误。
-
而在旧版FL引擎上,僵尸得分会自动归零,这可能会导致僵尸拦截规则出现误报。Cloudflare 博客
-
-
真正令人讨厌的部分:文件不断在 "好 "与 "坏 "之间切换
-
ClickHouse 集群正在逐步更新,特征文件每五分钟重新生成一次。
-
有时查询在更新的节点上运行(产生一个坏文件),有时在未更新的节点上运行(产生一个好文件)。
-
这意味着,随着不同版本文件的传播,Cloudflare 的网络在正常运行和故障之间摇摆了一段时间。Cloudflare 博客
-
这种摆动使内部情况非常混乱。起初,Cloudflare 的团队怀疑发生了大规模的 DDoS 攻击,因为错误模式不像是简单的软件崩溃。甚至 Cloudflare的状态页面(托管在他们自己的基础设施之外)也出现了短暂的错误--这种巧合进一步加剧了外部攻击的嫌疑。Cloudflare 博客+1
只有当他们意识到共同因素是僵尸功能文件时,情况才变得明朗起来。
事件时间表
根据 Cloudflare 的事后分析和第三方报告,我们可以拼凑出 2025 年 11 月 18 日的大致时间表:Cloudflare 博客+2ThousandEyes+2
-
11:05 UTC- ClickHouse 部署了数据库访问控制变更。
-
11:20-11:30 UTC- 开始生成和传播僵尸管理功能文件的错误版本。
-
11:28 UTC- 首次客户影响:客户流量中出现 HTTP 5xx 错误。
-
11:30-11:32 UTC- 外部监控工具和自动测试开始检测间歇性故障。
-
11:35 UTC- Cloudflare 打开内部事件呼叫;开始调查。
-
~11:48 UTC- Cloudflare 发布状态更新,确认发生事故。重新发送
-
11:30-13:05 UTC- 团队重点关注看似降级的工人 KV 行为,并调查多种可能的原因(包括攻击场景)。
-
13:05 UTC- 关键缓解措施:Workers KV 和 Cloudflare Access 转移到绕过核心代理;影响降低。Cloudflare 博客
-
14:30 UTC- 已查明根本原因;停止生成和传播不良特征文件。手动插入已知的良好配置文件,并重新启动核心代理。大部分核心流量恢复正常。Cloudflare 博客
-
14:40-15:30 UTC- 由于 Turnstile 和积压的验证尝试造成二次负载高峰,仪表板和登录问题挥之不去。Cloudflare 博客
-
17:06 UTC- 错误率恢复到基准;Cloudflare 宣布系统完全正常。Cloudflare 博客
从用户的角度来看,UTC 时间上午晚些时候到下午早些时候的故障最严重,但具体的影响窗口因地区和每项服务所依赖的 Cloudflare 产品而异。
为什么这次故障如此重要
集中化风险
Cloudflare 与主要云平台(AWS、Azure、GCP)和其他大型 CDN 一样,都是小型中央互联网基础设施提供商。当其中一家出现故障时,影响范围很广,而且往往不明显。
这次故障
-
不是因为 BGP 路由故障或 ISP 电缆被切断。
-
并非来自恶意攻击(尽管最初有所怀疑)。
-
而是来自一个内部组件的单一配置和限制错误。
这一点很重要,因为它显示了即使没有外部干扰,复杂、紧密耦合的系统也可能发生灾难性故障。当许多组织建立在同一个提供商的基础上时,该提供商就会成为互联网中事实上的重要系统。
"软 "依赖也会受到影响
一些受影响的服务并不只是将 Cloudflare 作为哑 CDN 使用。它们是
-
使用Cloudflare Access进行身份验证和零信任访问。
-
使用Workers KV作为内部控制平面的一部分。
-
依靠Turnstile进行防僵尸登录。Cloudflare 博客+1
当这些产品出现故障时,宕机的不仅仅是网站内容,登录、管理功能和内部 API也会损坏。这使得恢复变得更加复杂:您的状态页面、事件工具或管理用户界面可能也依赖于刚刚发生故障的提供商。
Cloudflare 表示将做出哪些改变
Cloudflare 在博客中概述了公司已经采取的几项补救措施,以降低类似事件再次发生的风险:Cloudflare 博客
-
加强对自动生成的配置文件的摄取
对内部生成的配置文件采取与用户提供的输入相同的怀疑和验证态度,包括在推出前进行严格的模式和大小检查。 -
更多全局关闭开关
在全网范围内更轻松地快速禁用有问题的内部模块(如僵尸管理),使其无法打开,而不是惊动整个代理路径。 -
保护系统资源免受错误风暴影响
确保当错误开始激增时,核心转储、调试元数据和可观察性工具不会占用 CPU 和内存。 -
审查核心代理模块的故障模式
系统地审核每个内部模块在意外输入或配置下的行为,确保优雅降级而不是全局故障。 -
完善推出和隔离
虽然没有详细说明,但这一事件表明 Cloudflare 可能会进一步细分新配置和 DB 行为的传播方式,以降低单个错误变更影响整个团队的几率。
他们还将此次事件视为其弹性预期的绝对失败,称其为 "不可接受的",并明确承认给客户和普通互联网用户带来的痛苦。Cloudflare 博客
给基础设施和 SRE 团队的启示
即使您运行的不是 Cloudflare 这样的庞然大物,这次故障也为您提供了一些非常实用的设计和操作经验:
将内部配置视为不可信任的输入
我们很容易认为 "我们自己 "生成的配置总是正确的。昨天的事故说明了为什么这样做很危险:
-
在应用配置文件之前,一定要验证其大小、形状和限制。
-
考虑首先对一小部分流量或节点应用配置,并在出现异常时自动回滚。
-
在功能数量、内存预分配和 CPU 使用量方面保持严格的上限和断路器。
设计优美的部分故障
机器人管理模块中的一个错误不应导致整个代理路径瘫痪:
-
在某些安全层中,如果选择完全中断,则默认为故障打开与故障关闭。
-
为非核心功能建立明确的、经过测试的关闭开关。
-
确保关键子系统(认证、状态页面、事件工具)能够在降级模式下或通过备用路径运行。
观察正确的信号
每五分钟在 "好配置 "和 "坏配置 "之间摇摆的信号看起来像是攻击流量或嘈杂的外部行为:
-
确保在可观察性管道中具有每个版本或每个配置的相关性。
-
构建仪表盘,在错误图上直观地显示配置更改。
-
从外部视角进行强大的合成测试,以便快速区分内部故障和网络/路径问题。
不要把鸡蛋放在一个基础设施篮子里
对于使用 Cloudflare 的企业:
-
考虑为真正的关键任务属性设置多 CDN。
-
避免使您的状态页面完全依赖于与您的主堆栈相同的提供商(Cloudflare 就是这样做的,但昨天他们的状态页面主机出现了巧合的故障,使事情变得更加混乱)。Cloudflare 博客+1
-
在将身份验证、API 控制平面和前端交付紧密耦合到同一供应商且没有后备路径之前,请三思而后行。
大局观
仅在过去几个月中,我们就看到微软 Azure、亚马逊网络服务以及 Cloudflare 出现重大故障,所有这些故障都导致大量消费者和企业服务暂时下线。美联社新闻+2华盛顿邮报+2
模式很明显:
-
互联网越来越依赖于少数几家巨型基础设施提供商。
-
故障往往是自己造成的,来自复杂的内部变化而非外部攻击。
-
即使是拥有世界一流 SRE 实践的提供商,也可能会被配置、数据库行为和硬编码限制之间的意外交互所绊倒。
昨天的 Cloudflare 事件就是一个鲜明的警示:"云 "并不神奇。归根结底,它仍然是由人类编写的软件,与其他任何应用程序一样会出现同样的错误,只是依赖它的人要多得多。
对于用户来说,人们对这一事件的印象大多是 "那天早上,X 和 ChatGPT 无法加载"。
对于工程师来说,这可能会被当作一个教科书式的例子来研究,说明核心分布式系统中微妙的配置错误是如何波及全球互联网事件的。


11914
IT Pro 



















