AI 超算互聯的下一個十年:從 GPU-centric 到 Fabric-centric 的架構變革
- simpletechtrend
- 3天前
- 讀畢需時 5 分鐘
前言:算力不再是 GPU 的競賽,而是互聯的競賽
AI 的爆發讓全球資料中心進入一個極度明確的趨勢:
模型越大 → Token 消耗越誇張 → 訓練與推理成本變成根本性基礎建設問題。
2023~2025,全球頭部 CSP(Google / AWS / Meta / Microsoft / 阿里 / 騰訊 / 字節)陸續上調 Capex:
Google:850 億美元
Meta:660–720 億美元
AWS:突破 1,000 億美元
微軟:單季超 300 億美元
光是美國四大 CSP 2025 合計 Capex 已超過 3610 億美元。
這裡最關鍵的是——投入結構正在改變:
從「買更多 GPU」→「打造專屬 AI Fabric」。
因此,本文重點為:
AI 雲端的算力架構是如何從 GPU 時代走向 ASIC + Fabric?
Scale-Up / Scale-Out / Scale-Across 的互聯技術正進入哪些新階段?
CPO、OCS、背板、Optical I/O 為什麼是未來 10 年 AI 最大的供應鏈機會?
全球 CSP 的算力版圖:AI Fabric 的主戰場
全球雲端走向自研 ASIC 的原因非常一致:
降低 TCO、提升能效、掌握供應鏈、避免被控於 NVIDIA 一家。
下面會從五大 CSP 解析其算力與互聯架構。
Google:TPU + OCS,全球最前瞻的光交換架構
TPU 七代演進(V1 → V7 Ironwood)
從 TPU v4 開始,Google 清楚地把重心放在:
3D Torus 互聯
全光交換(OCS)
1.6T 光模組
機櫃(64 chips)→ 超節點(4096 chips)
TPU v7(Ironwood)進一步提升:
HBM 192GB(比 v5e/v5p 大幅提升)
ICI(inter-chip interconnect)帶寬 9600 Gbps
峰值算力 ≥ 4614 TFLOPS(BF16)
這不是線性提升,而是把互聯視為核心性能。
3D Torus:為 AI 訓練量身打造的拓撲
一般以太網是 Clos/Fat-tree,而 TPU 選擇 Torus 的原因:
提供 高擴展性
對大型 batch、超大規模模型更穩定
在固定拓撲下可做到 預測性傳輸延遲
64 TPU → 4×4×4 立體網絡,是 Google 最優化的甜蜜點。
OCS:Google “跳過 CPO 的下一代技術”
Google 在 4096-chip 超節點中導入:
48 台 OCS(Optical Circuit Switch)
每台支援 320×320 以上的光路交織
0 buffer、0 serialization、0 再定時
這意味著:
真正做到全光路徑的架構,是最終形態的 AI Network。
OCS 的三大優勢:
延遲比以太網低一個數量級
功耗遠小於 Ethernet Switching
適合 AI 訓練這種 “大流量但拓撲不常變” 的工作負載
光模組需求(TPU v4/v5/v6/v7)
TPU 需要大量光模組:
架構 | TPU:光模組 |
機櫃內 DAC | 1 : 4 |
4096 超節點(OCS) | 1 : 1.5 |
Fat-tree 大規模組網 | 1 : 4.5 |
Google 的光模組採集策略極度明確:
大量採購 + 完全控制架構 + 積極自主開發。
AWS:Trainium → Teton,從銅轉向背板
AWS 強項不是算力,而是工程與成本最佳化。
它不追求 “最高 TOPS”,而是追求 性能/成本/功耗比。
Trainium 2:AEC + DAC 主導的機櫃內互聯
NeuronLink v3:每 chip 32DP × 32Gbps
機櫃內 DAC:1:9
機櫃間 AEC:1:1
AWS 重點在於:
在不使用超高價 GPU 的前提下,把 80% 的大模型訓練效能做出來。
Trainium 3(Teton):全面採用背板
Teton PDS / Teton Max 引入:
背板(Backplane)取代銅纜密佈的 cable tray
更多 PCIe switch(32~40 顆)
液冷 + 高密度拓撲(64~72 chips)
AWS 清楚地知道:
銅線的密度是上限,背板才是長期解法。
這與 NVIDIA Rubin 完全同方向。
Meta:MTIA 與 Minerva,大幅自訂網路架構
Meta 具備三項全球最強能力:
懂 AI 模型與 workload
懂資料中心設計(從 CLOS 架構開始就是 Meta 推動)
能把 ASIC、NIC、Switch、機櫃全部統一設計
MTIA-T:800G 互聯 × 大量 DAC
每顆 MTIA-T chip 透過 4×800G → Scale-Up
接至 TH5/TH6 → 8×800G
機櫃內 DAC 比例極高:1:12
Meta 的策略是:
用“中等帶寬 + 高設計優化”打敗高單價 GPU。
Scale-Out(兩層 Fat-tree)光模組需求:
MTIA : 800G 光模組 = 1 : 8
Minerva:Meta 自家 ASIC + Broadcom J3 Switch
16 MTIA-T Compute Blades
6 Network Blades(Scale-Up + Scale-Out)
與 Google/NVIDIA 的差異在於:
Meta 更依賴 Ethernet 交換技術
對光模組與 DAC 的需求非常大
NVIDIA:NVLink + 光模組 + 背板三管齊下
NVIDIA 不是單純賣 GPU,而是賣:
一整套 AI Fabric(GPU + NVSwitch + NIC + Spectrum)。
這讓 NVIDIA 成為全球 AI Network 的標準制定者。
GB200:800G 時代巔峰
576 GPU 機櫃
GPU : 800G 光模組 ≈ 1 : 1.5 ~ 2.5
NVLink 5.0 雙向 1.8TB/s
C2C 全部走銅(大量差分線)
GB200 最大問題不是效能,而是:
冷卻密度極高(6 對 UQD)
線纜密度極高(數千條銅線)
因此 NVIDIA 推出 GB300。
GB300:進入 1.6T / CPO 時代
NVLink 6.0 + CX8 NIC(800G):
水冷管路增加到 14 對 UQD
NIC 進入 1.6T 世代(CX9)
CPO 交換機(Spectrum)開始導入
Rubin / Feynman:NVIDIA 最關鍵的架構轉折
Rubin = 正交背板(Orthogonal Backplane) + CPO + 全液冷
Rubin 架構帶來:
取消 cable tray
整櫃背板化(與 AWS Teton 同方向)
延遲降低、穩定性提升、布線簡化
Scale-Up 更像大型主機(mainframe)
Feynman 則把:
NVLink 提到 7200GB/s
Spectrum 升到 204T(CPO 時代)
NIC 進入 CX10(3.2T 時代)
NVIDIA 正把 AI Fabric 帶往:
PCB → CPO → 全光架構 → Light-speed Fabric
三大互聯層級:Scale-Up / Scale-Out / Scale-Across
1)Scale-Up(櫃內互聯):決定訓練吞吐量
主流技術:
DAC / AEC(短距)
正交背板(中距)
NVLink / PCIe Switch
OIO(未來)
下一世代會是:
光背板(Optical Backplane)取代銅背板。
2)Scale-Out(櫃間互聯):決定集群大小
主流技術:
CPO(800G → 1.6T → 3.2T)
OCS(Google 引領)
高密度光纖(MPO → MMC)
以太網(Broadcom Tomahawk)
InfiniBand(NVIDIA Quantum)
Scale-Out 的主戰場就是光。
3)Scale-Across(機房間互聯):DCI 時代
技術方向:
相干光(Coherent)
空芯光纖(低延遲)
400G ZR / ZR+
Spectrum-X(AI 專用 L2/L3 Fabric)
未來十年 AI 互聯的大趨勢
趨勢 1:AI 的瓶頸正在從算力轉向 Bandwidth
GPU 的 TFLOPS 已不是重點,真正影響訓練速度的是:
NVLink
PCIe Switch
NIC
交換 ASIC
光模組
拓撲
AI Fabric 會是雲端競爭力的本質。
趨勢 2:銅纜會逐步被光取代,可能需要 5–8 年
推進路徑:
銅 → 背板 → 光背板 → CPO → OCS → OIO
其中矽光子,會在其中扮演三個角色:
CPO 光引擎(1.6T/3.2T 核心)
OIO(最終形態)
光背板(背板光纜化)
趨勢 3:AI 資料中心會變成三層 Fabric
不再是 “Server + Switch”,而是:
Compute Fabric(GPU/ASIC/NVLink/PCIe Switch)
Optical Fabric(CPO、OCS、光背板)
Cooling Fabric(全液冷、UQD、manifold)
這是完全不同於傳統 DC 的架構。
AI 資料中心正走向「光電融合」的黃金十年
全球正進入一個巨大的轉折點:
AI 時代的算力,不是堆 GPU,而是堆互聯。
NVIDIA、Google、AWS、Meta、華為,都在做同一件事:
把電互聯升級到光互聯
把銅線密度問題改成光學解法
把網路從 Ethernet 變成 Fabric
把熱管理從風冷進入全液冷
未來 10 年,真正主導 AI 資料中心價值鏈的不是 GPU,而是:



留言