top of page

HOT CHIPS 2025: Google Ironwood TPU Rack,當 AI 系統開始為「長期可擴展性」而設計

已更新:1天前

Google 為什麼一開始就談「系統」,而不是 TPU 晶片

在這場 case study 中,Google 並沒有把焦點放在 Ironwood TPU 本身,而是從整個 TPU 系統與 super pod 的演進談起,這反映了 Google 一貫的設計思維。

  • TPU 從一開始就是「系統級產品」

  • 晶片只是系統中的一個元件

  • 架構設計必須同時對應現在與未來的工作負載

  • 設計週期以「多年可用」為前提

對 Google 來說,晶片若不能自然融入系統,就沒有意義



TPU 系統的演進,本質是對工作負載的回應

Google 清楚說明了 TPU 世代演進背後的驅動力。

  • 模型參數數量持續上升

  • Mixture of Experts 成為常態

  • 訓練與推論都需要更大的 scale-up domain

  • 記憶體頻寬與容量同步成為瓶頸

這三個基本支柱同時承壓:

  • Compute

  • Memory

  • Network

Ironwood 並非單點升級,而是三者同步放大。


從 TPUv4 到 Ironwood,看的是系統尺度變化

Google 用數據清楚呈現系統規模的跨越。

  • TPUv4:

    • 約 500 顆 TPU

    • HBM 32 GB

    • 1.2 TB/s bandwidth

  • TPUv5P:

    • 約 9,000 顆 TPU

    • HBM 約 96 GB

    • 2.8 TB/s bandwidth

  • Ironwood:

    • 9,216 顆 TPU

    • HBM 192 GB

    • 7.4 TB/s bandwidth

    • 單晶片效能提升約 10 倍

這不只是效能提升,而是「系統密度」的質變。


Ironwood 的基本建構單元,是一整個 rack

Ironwood 的最小物理與邏輯單元,不是 server,而是一個 rack。

  • 一個 rack 內含 16 個 TPU PCBA tray

  • 每個 tray 搭載 4 顆 Ironwood TPU

  • 單 rack = 64 TPU 的 3D Torus building block

這個 rack 同時是:

  • 邏輯上的 scale-up 節點

  • 物理上的部署單元

  • 維運與管理的基本單位


Google 為什麼堅持 3D Torus 架構

與 NVLink 的單層 switch 架構不同,Google 長期採用 3D Torus。

  • 每個 rack 是 4×4×4 的 3D Torus

  • ICI(Inter-Chip Interconnect)為核心 scale-up 網路

  • 架構天然支援:

    • Model parallelism

    • Pipeline parallelism

    • Expert sharding

這不是為了簡單,而是為了拓撲彈性。


混合互連:PCB、銅線與光纖並存

Ironwood 的互連設計採取混合策略。

  • PCB trace:rack 內最短距離

  • Passive copper cable:rack 內與鄰近連結

  • Optical fiber:跨 rack scale-up 與 OCS

這讓系統能在不同尺度間自由切換拓撲。

  • 不被單一互連技術綁死

  • 能隨工作負載重新配置


Optical Circuit Switch 是 scale-up 的關鍵延伸

Ironwood 並非只靠固定拓撲擴展。

  • OCS rack 作為 scale-up 延伸節點

  • 讓多個 rack 動態組合成 super pod

  • 支援 144 個 rack 的 scale-up

這讓 Ironwood 同時支援:

  • 大型單一訓練工作

  • 多個碎片化工作併行


一個 Ironwood super pod,本質是一座超級電腦

完整 Ironwood super pod 包含:

  • 144 個 TPU rack

  • 多個 OCS rack

  • 專用 CDU(Coolant Distribution Unit)rack

  • 獨立的 network rack

整體規模約:

  • 9,216 顆 TPU

  • 約 43 exaFLOPS 等級算力

  • 近 1.8 PB HBM 記憶體池

這已是超級電腦等級的系統。


為什麼 Google 的 rack 明顯更寬

Ironwood 採用非標準寬度 rack,並非偶然。

  • 更好的前方可維修性

  • 更充裕的 cable routing 空間

  • 支援高密度液冷 manifold

  • 降低布線與維修風險

Google 早在多個世代前,就已為「可維運性」犧牲密度。


液冷不是選項,而是前提條件

Google 很早就押注液冷。

  • Dinard scaling 已終結

  • 功耗每代上升是必然

  • 高密度 copper 互連需要短距離

液冷同時解決三個問題:

  • 熱傳效率

  • 系統密度

  • 互連距離控制


Power 管理已成為系統級問題

Ironwood 特別強調 power 行為。

  • 單 rack 功率超過 100 kW

  • 採用雙 power domain

  • 支援 rack-level power capping

更重要的是「動態功率」。

  • 同步訓練可能造成 10–15 MW power swing

  • 需要硬體與軟體協同控制

  • 100 ms 等級的快速調節能力

這已不是單純電源設計問題。


Turn-up velocity 是隱藏但關鍵的設計指標

Google 多次提到一個關鍵詞:turn-up velocity。

  • 系統是否能快速上線

  • 是否能在資料中心順利部署

  • 是否能快速除錯與維修

為此,Ironwood 在 rack 層級設計了:

  • 預佈署光纖與銅纜

  • 清楚的 cable management

  • 高度模組化 tray 設計


Google 關注的不是單點效能,而是長期穩定擴展

Ironwood 的設計哲學非常清楚。

  • 架構必須支援未來工作負載

  • 系統需具備多年可用性

  • 軟硬體共同演進,而非單向推進

這也是 Google 持續自研 TPU 系統的核心理由。


Simple Tech and Trend 的觀點

Ironwood 展現的是另一種 AI 系統思維。

  • NVIDIA 解的是「極限密度的工程問題」

  • Meta 解的是「既有資料中心的可部署性」

  • Google 解的是「長期可擴展的系統架構」

在 Google 的世界裡,

AI 系統不是產品,而是一項長期基礎建設。

Ironwood 不是為某一代模型而生,而是為「未來還不存在的模型」預留空間。

最新文章

查看全部
HOT CHIPS 2025: Meta Catalina(NVL72),當 AI 系統開始為「既有資料中心」而設計

Meta 為什麼要自己做 NVL72,而不是直接照表操課 在這場 case study 中,Meta 並不是單純展示一個 NVIDIA NVL72 的客製版本,而是清楚說明一件事: AI 系統設計,必須服從現實的資料中心條件。 Meta 已在資料中心規模部署 AI 超過十年 多數既有資料中心並非為高密度液冷而生 AI 擴展速度,已經快過新資料中心的建設速度 系統若無法快速落地,就沒有意義 Cata

 
 
 
HOT CHIPS 2025: NVIDIA GB200 / GB300 NVL72,從機械與散熱角度看 AI Rack 為何已經不是「伺服器的集合」

NVIDIA 為什麼要先談 MGX,而不是直接談 GB200 在這場 case study 中,NVIDIA 並沒有一開始就介紹 GB200 或 GB300,而是先從 MGX 架構談起,這其實點出了問題的本質。 AI 系統已不再是單一伺服器設計問題 不同客戶在 CPU、GPU、DPU、NIC、管理方式上都有細微差異 即使只改一個模組,也會牽動整個系統重設 反覆客製導致 time-to-market

 
 
 
HOT CHIPS 2025: NVIDIA 為什麼必須把光互連做到 Co-Packaged Silicon Photonics Switch

NVIDIA 面對的問題早已不是單顆晶片效能 在 Hot Chips 2025 的分享中,NVIDIA 很清楚地傳達一個訊息:他們現在解決的問題,不是 GPU 有多快,而是整個 AI 系統能不能有效運作。 單顆 GPU 的算力仍在提升,但系統效能成長開始放緩 大型模型需要數千甚至上萬顆 GPU 協同運算 系統瓶頸逐漸轉移到 GPU 與 GPU 之間的互連 延遲、功耗與可擴展性成為決定性因素 在這樣

 
 
 

留言


  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page