HOT CHIPS 2025: NVIDIA GB200 / GB300 NVL72,從機械與散熱角度看 AI Rack 為何已經不是「伺服器的集合」
- simpletechtrend
- 4天前
- 讀畢需時 4 分鐘
NVIDIA 為什麼要先談 MGX,而不是直接談 GB200
在這場 case study 中,NVIDIA 並沒有一開始就介紹 GB200 或 GB300,而是先從 MGX 架構談起,這其實點出了問題的本質。
AI 系統已不再是單一伺服器設計問題
不同客戶在 CPU、GPU、DPU、NIC、管理方式上都有細微差異
即使只改一個模組,也會牽動整個系統重設
反覆客製導致 time-to-market 失控
MGX 的核心目標,是把「系統複雜度」模組化,讓變動被局部吸收,而不是每一代都重來一次。
MGX 架構的關鍵不是模組,而是「開放」
MGX 並不是 NVIDIA 專屬的內部架構,而是直接貢獻給 OCP,這是一個非常關鍵的設計決策。
模組介面、尺寸、規格全部公開
3D model、2D drawing 與完整規格文件對外釋出
客戶與供應鏈可在同一套基礎上做客製
這讓 GB200 / GB300 不只是 NVIDIA 的產品,而是一套「可被生態系消化」的系統架構。
NVL72 不只是算力問題,而是 120 kW 級的系統工程
從系統層級來看,GB200 / GB300 NVL72 已經進入完全不同的尺度。
單一 rack 功耗約 120 kW
每個 compute tray 約 7 kW
全 rack FP4 算力約 1.4 exaFLOPS
NVLink 以 200 Gb/s per lane 的 copper interconnect 為核心
這已經不是傳統「伺服器 + switch」的思維,而是接近一台小型超級電腦。
為什麼 NVIDIA 堅持在 Scale-up 使用銅線
NVLink spine 採用高密度銅纜,並不是保守,而是工程取向的選擇。
銅線延遲低、行為可預期
相比光學,可靠度更高、成本更低
對 rack-level 的距離仍在可接受範圍
這也解釋了為什麼整個 rack 的機械與結構設計,必須為「大量粗銅纜」讓路。
從 OCP Open Rack V3 到 NVIDIA 客製 Rack
NVIDIA 的 rack 並非從零開始,而是基於 OCP Open Rack V3 演進而來,但中間做了大量關鍵調整。
保留 rear blind-mate power 與前方維修動線
改用 19 吋 EIA pitch(44.5 mm)而非 OCP 的 48 mm
提升節點密度,同時縮短 NVLink cable 長度約 120 mm
改善高速訊號完整性
這個看似「機構尺寸」的決定,實際上直接影響到訊號品質與系統可靠度。
為了電力,整個 rack 被迫「長大」
GB200 / GB300 的 power density 遠超 OCP 原始設計。
原 OCP bus bar 約 35 kW 等級
NVIDIA 需求超過 1400 A
需要更厚、截面積更大的銅 bus bar
因此 NVIDIA 為 rack 設計了後方 extension frame。
rack 深度從 1068 mm 增加到約 1200 mm
容納更大的 bus bar、液冷 manifold 與 NVLink spine
這不是選項,而是物理極限下的必然結果。
液冷不是難題,真正的難題是「盲插」
在 NVL72 中,液冷是必要條件,但真正困難的是如何讓它可維修、可量產。
每個 rack 有超過 40 組 quick disconnect
單一 QD 插入力約 40 磅
全 rack 累積插入力約 6500 磅
這意味著:
manifold 會彎曲
rack 結構會承受巨大內力
若設計不當,插拔將無法可靠完成
為什麼 manifold 必須固定在「中心」
NVIDIA 在 manifold 設計上非常刻意地選擇「中心固定」。
不鏽鋼在 25°C → 75°C 會產生毫米級熱膨脹
2.1 公尺長的 manifold 熱位移不可忽略
若從單邊固定,會導致 QD 錯位或卡死
中心固定可將熱膨脹位移對半分攤,確保長期可靠性。
NVLink spine 的浮動設計是為了量產,而不是炫技
NVLink spine 採用浮動 connector 並非為了方便插拔,而是為了對抗製造公差。
X/Y 方向可浮動 ±3 mm
插入方向可浮動約 4 mm
自動吸收堆疊公差
這是典型「量產導向」而非實驗室導向的設計。
6500 磅不是比喻,而是真實的結構負載
當所有 QD、NVLink connector 同時插入時:
rack 中段承受約 6500 磅的持續內力
相當於一輛 SUV 停在 rack 中央
若使用標準商用 rack,會直接彎曲失效
因此 NVIDIA:
額外加入約 80 磅鋼材補強
設計前後方向的結構支撐
確保在滿載時撓度小於 0.1 mm
為什麼改用 19 吋 EIA 對散熱與布線都重要
19 吋 EIA 不只是相容性考量。
tray 變窄,騰出更多前方布線空間
容納更粗的高速銅纜
避免 cable 遮擋 tray 抽取
這對 NVLink 高速 copper 與維修動線都至關重要。
Compute tray 與 switch tray 的模組化設計
在 tray 設計上,MGX 的模組化精神被完整落實。
compute tray:2 CPU + 4 GPU
switch tray:沿用相同機構與接口
前方 IO 區域可客製管理、NIC、SSD
後方則高度一致:
相同 UQD
相同電源接口
相同結構與把手
為什麼仍然需要氣冷
即使是高度液冷系統,氣冷仍不可或缺。
cable cartridge 對 airflow 阻抗極高
仍有部分元件依賴氣冷
NVIDIA 在 tray、rail、bracket 上全面打孔
這樣形成側向 airflow channel。
降低風扇功耗
降低噪音
提升整體散熱效率
GB300 的一個重要轉變:全液冷 switch
在 GB300 中,NVIDIA 進一步將 NVLink switch 完全液冷。
移除 switch tray 風扇
將更多功耗導入液冷 loop
降低 rack 內部熱負載
這是從 GB200 走向更高功率密度的重要一步。
NVLink Fusion 是這套架構的延伸,而不是重來
最後,NVIDIA 提到 NVLink Fusion。
讓非 NVIDIA accelerator 也能接入 MGX
將 NVL72 從「產品」轉為「平台」
MGX 成為 open scale-up 基礎設施
Simple Tech and Trend 的觀點
這場 case study 清楚顯示,AI rack 已不再是 IT 設備,而是重工業等級的系統工程。
問題不在算力,而在結構、熱、插拔與量產
成敗關鍵藏在毫米、牛頓與瓦特
NVL72 是一個「被迫長成這樣」的系統
GB200 / GB300 的真正創新,不在 GPU,而在它如何被安全、可靠地放進世界各地的資料中心。




留言