HOT CHIPS 2025: Google Ironwood TPU Rack,當 AI 系統開始為「長期可擴展性」而設計
- simpletechtrend
- 4天前
- 讀畢需時 3 分鐘
已更新:1天前
Google 為什麼一開始就談「系統」,而不是 TPU 晶片
在這場 case study 中,Google 並沒有把焦點放在 Ironwood TPU 本身,而是從整個 TPU 系統與 super pod 的演進談起,這反映了 Google 一貫的設計思維。
TPU 從一開始就是「系統級產品」
晶片只是系統中的一個元件
架構設計必須同時對應現在與未來的工作負載
設計週期以「多年可用」為前提
對 Google 來說,晶片若不能自然融入系統,就沒有意義。
TPU 系統的演進,本質是對工作負載的回應
Google 清楚說明了 TPU 世代演進背後的驅動力。
模型參數數量持續上升
Mixture of Experts 成為常態
訓練與推論都需要更大的 scale-up domain
記憶體頻寬與容量同步成為瓶頸
這三個基本支柱同時承壓:
Compute
Memory
Network
Ironwood 並非單點升級,而是三者同步放大。
從 TPUv4 到 Ironwood,看的是系統尺度變化
Google 用數據清楚呈現系統規模的跨越。
TPUv4:
約 500 顆 TPU
HBM 32 GB
1.2 TB/s bandwidth
TPUv5P:
約 9,000 顆 TPU
HBM 約 96 GB
2.8 TB/s bandwidth
Ironwood:
9,216 顆 TPU
HBM 192 GB
7.4 TB/s bandwidth
單晶片效能提升約 10 倍
這不只是效能提升,而是「系統密度」的質變。
Ironwood 的基本建構單元,是一整個 rack
Ironwood 的最小物理與邏輯單元,不是 server,而是一個 rack。
一個 rack 內含 16 個 TPU PCBA tray
每個 tray 搭載 4 顆 Ironwood TPU
單 rack = 64 TPU 的 3D Torus building block
這個 rack 同時是:
邏輯上的 scale-up 節點
物理上的部署單元
維運與管理的基本單位
Google 為什麼堅持 3D Torus 架構
與 NVLink 的單層 switch 架構不同,Google 長期採用 3D Torus。
每個 rack 是 4×4×4 的 3D Torus
ICI(Inter-Chip Interconnect)為核心 scale-up 網路
架構天然支援:
Model parallelism
Pipeline parallelism
Expert sharding
這不是為了簡單,而是為了拓撲彈性。
混合互連:PCB、銅線與光纖並存
Ironwood 的互連設計採取混合策略。
PCB trace:rack 內最短距離
Passive copper cable:rack 內與鄰近連結
Optical fiber:跨 rack scale-up 與 OCS
這讓系統能在不同尺度間自由切換拓撲。
不被單一互連技術綁死
能隨工作負載重新配置
Optical Circuit Switch 是 scale-up 的關鍵延伸
Ironwood 並非只靠固定拓撲擴展。
OCS rack 作為 scale-up 延伸節點
讓多個 rack 動態組合成 super pod
支援 144 個 rack 的 scale-up
這讓 Ironwood 同時支援:
大型單一訓練工作
多個碎片化工作併行
一個 Ironwood super pod,本質是一座超級電腦
完整 Ironwood super pod 包含:
144 個 TPU rack
多個 OCS rack
專用 CDU(Coolant Distribution Unit)rack
獨立的 network rack
整體規模約:
9,216 顆 TPU
約 43 exaFLOPS 等級算力
近 1.8 PB HBM 記憶體池
這已是超級電腦等級的系統。
為什麼 Google 的 rack 明顯更寬
Ironwood 採用非標準寬度 rack,並非偶然。
更好的前方可維修性
更充裕的 cable routing 空間
支援高密度液冷 manifold
降低布線與維修風險
Google 早在多個世代前,就已為「可維運性」犧牲密度。
液冷不是選項,而是前提條件
Google 很早就押注液冷。
Dinard scaling 已終結
功耗每代上升是必然
高密度 copper 互連需要短距離
液冷同時解決三個問題:
熱傳效率
系統密度
互連距離控制
Power 管理已成為系統級問題
Ironwood 特別強調 power 行為。
單 rack 功率超過 100 kW
採用雙 power domain
支援 rack-level power capping
更重要的是「動態功率」。
同步訓練可能造成 10–15 MW power swing
需要硬體與軟體協同控制
100 ms 等級的快速調節能力
這已不是單純電源設計問題。
Turn-up velocity 是隱藏但關鍵的設計指標
Google 多次提到一個關鍵詞:turn-up velocity。
系統是否能快速上線
是否能在資料中心順利部署
是否能快速除錯與維修
為此,Ironwood 在 rack 層級設計了:
預佈署光纖與銅纜
清楚的 cable management
高度模組化 tray 設計
Google 關注的不是單點效能,而是長期穩定擴展
Ironwood 的設計哲學非常清楚。
架構必須支援未來工作負載
系統需具備多年可用性
軟硬體共同演進,而非單向推進
這也是 Google 持續自研 TPU 系統的核心理由。
Simple Tech and Trend 的觀點
Ironwood 展現的是另一種 AI 系統思維。
NVIDIA 解的是「極限密度的工程問題」
Meta 解的是「既有資料中心的可部署性」
Google 解的是「長期可擴展的系統架構」
在 Google 的世界裡,
AI 系統不是產品,而是一項長期基礎建設。
Ironwood 不是為某一代模型而生,而是為「未來還不存在的模型」預留空間。




留言