top of page

HOT CHIPS 2025: NVIDIA GB200 / GB300 NVL72,從機械與散熱角度看 AI Rack 為何已經不是「伺服器的集合」

NVIDIA 為什麼要先談 MGX,而不是直接談 GB200

在這場 case study 中,NVIDIA 並沒有一開始就介紹 GB200 或 GB300,而是先從 MGX 架構談起,這其實點出了問題的本質。

  • AI 系統已不再是單一伺服器設計問題

  • 不同客戶在 CPU、GPU、DPU、NIC、管理方式上都有細微差異

  • 即使只改一個模組,也會牽動整個系統重設

  • 反覆客製導致 time-to-market 失控

MGX 的核心目標,是把「系統複雜度」模組化,讓變動被局部吸收,而不是每一代都重來一次。


MGX 架構的關鍵不是模組,而是「開放」

MGX 並不是 NVIDIA 專屬的內部架構,而是直接貢獻給 OCP,這是一個非常關鍵的設計決策。

  • 模組介面、尺寸、規格全部公開

  • 3D model、2D drawing 與完整規格文件對外釋出

  • 客戶與供應鏈可在同一套基礎上做客製

這讓 GB200 / GB300 不只是 NVIDIA 的產品,而是一套「可被生態系消化」的系統架構。


NVL72 不只是算力問題,而是 120 kW 級的系統工程

從系統層級來看,GB200 / GB300 NVL72 已經進入完全不同的尺度。

  • 單一 rack 功耗約 120 kW

  • 每個 compute tray 約 7 kW

  • 全 rack FP4 算力約 1.4 exaFLOPS

  • NVLink 以 200 Gb/s per lane 的 copper interconnect 為核心

這已經不是傳統「伺服器 + switch」的思維,而是接近一台小型超級電腦。


為什麼 NVIDIA 堅持在 Scale-up 使用銅線

NVLink spine 採用高密度銅纜,並不是保守,而是工程取向的選擇。

  • 銅線延遲低、行為可預期

  • 相比光學,可靠度更高、成本更低

  • 對 rack-level 的距離仍在可接受範圍

這也解釋了為什麼整個 rack 的機械與結構設計,必須為「大量粗銅纜」讓路。


從 OCP Open Rack V3 到 NVIDIA 客製 Rack

NVIDIA 的 rack 並非從零開始,而是基於 OCP Open Rack V3 演進而來,但中間做了大量關鍵調整。

  • 保留 rear blind-mate power 與前方維修動線

  • 改用 19 吋 EIA pitch(44.5 mm)而非 OCP 的 48 mm

  • 提升節點密度,同時縮短 NVLink cable 長度約 120 mm

  • 改善高速訊號完整性

這個看似「機構尺寸」的決定,實際上直接影響到訊號品質與系統可靠度。


為了電力,整個 rack 被迫「長大」

GB200 / GB300 的 power density 遠超 OCP 原始設計。

  • 原 OCP bus bar 約 35 kW 等級

  • NVIDIA 需求超過 1400 A

  • 需要更厚、截面積更大的銅 bus bar

因此 NVIDIA 為 rack 設計了後方 extension frame。

  • rack 深度從 1068 mm 增加到約 1200 mm

  • 容納更大的 bus bar、液冷 manifold 與 NVLink spine

這不是選項,而是物理極限下的必然結果。


液冷不是難題,真正的難題是「盲插」

在 NVL72 中,液冷是必要條件,但真正困難的是如何讓它可維修、可量產。

  • 每個 rack 有超過 40 組 quick disconnect

  • 單一 QD 插入力約 40 磅

  • 全 rack 累積插入力約 6500 磅

這意味著:

  • manifold 會彎曲

  • rack 結構會承受巨大內力

  • 若設計不當,插拔將無法可靠完成


為什麼 manifold 必須固定在「中心」

NVIDIA 在 manifold 設計上非常刻意地選擇「中心固定」。

  • 不鏽鋼在 25°C → 75°C 會產生毫米級熱膨脹

  • 2.1 公尺長的 manifold 熱位移不可忽略

  • 若從單邊固定,會導致 QD 錯位或卡死

中心固定可將熱膨脹位移對半分攤,確保長期可靠性。


NVLink spine 的浮動設計是為了量產,而不是炫技

NVLink spine 採用浮動 connector 並非為了方便插拔,而是為了對抗製造公差。

  • X/Y 方向可浮動 ±3 mm

  • 插入方向可浮動約 4 mm

  • 自動吸收堆疊公差

這是典型「量產導向」而非實驗室導向的設計。


6500 磅不是比喻,而是真實的結構負載

當所有 QD、NVLink connector 同時插入時:

  • rack 中段承受約 6500 磅的持續內力

  • 相當於一輛 SUV 停在 rack 中央

  • 若使用標準商用 rack,會直接彎曲失效

因此 NVIDIA:

  • 額外加入約 80 磅鋼材補強

  • 設計前後方向的結構支撐

  • 確保在滿載時撓度小於 0.1 mm


為什麼改用 19 吋 EIA 對散熱與布線都重要

19 吋 EIA 不只是相容性考量。

  • tray 變窄,騰出更多前方布線空間

  • 容納更粗的高速銅纜

  • 避免 cable 遮擋 tray 抽取

這對 NVLink 高速 copper 與維修動線都至關重要。


Compute tray 與 switch tray 的模組化設計

在 tray 設計上,MGX 的模組化精神被完整落實。

  • compute tray:2 CPU + 4 GPU

  • switch tray:沿用相同機構與接口

  • 前方 IO 區域可客製管理、NIC、SSD

後方則高度一致:

  • 相同 UQD

  • 相同電源接口

  • 相同結構與把手


為什麼仍然需要氣冷

即使是高度液冷系統,氣冷仍不可或缺。

  • cable cartridge 對 airflow 阻抗極高

  • 仍有部分元件依賴氣冷

  • NVIDIA 在 tray、rail、bracket 上全面打孔

這樣形成側向 airflow channel。

  • 降低風扇功耗

  • 降低噪音

  • 提升整體散熱效率


GB300 的一個重要轉變:全液冷 switch

在 GB300 中,NVIDIA 進一步將 NVLink switch 完全液冷。

  • 移除 switch tray 風扇

  • 將更多功耗導入液冷 loop

  • 降低 rack 內部熱負載

這是從 GB200 走向更高功率密度的重要一步。


NVLink Fusion 是這套架構的延伸,而不是重來

最後,NVIDIA 提到 NVLink Fusion。

  • 讓非 NVIDIA accelerator 也能接入 MGX

  • 將 NVL72 從「產品」轉為「平台」

  • MGX 成為 open scale-up 基礎設施


Simple Tech and Trend 的觀點

這場 case study 清楚顯示,AI rack 已不再是 IT 設備,而是重工業等級的系統工程。

  • 問題不在算力,而在結構、熱、插拔與量產

  • 成敗關鍵藏在毫米、牛頓與瓦特

  • NVL72 是一個「被迫長成這樣」的系統

GB200 / GB300 的真正創新,不在 GPU,而在它如何被安全、可靠地放進世界各地的資料中心。

最新文章

查看全部
HOT CHIPS 2025: NVIDIA 為什麼必須把光互連做到 Co-Packaged Silicon Photonics Switch

NVIDIA 面對的問題早已不是單顆晶片效能 在 Hot Chips 2025 的分享中,NVIDIA 很清楚地傳達一個訊息:他們現在解決的問題,不是 GPU 有多快,而是整個 AI 系統能不能有效運作。 單顆 GPU 的算力仍在提升,但系統效能成長開始放緩 大型模型需要數千甚至上萬顆 GPU 協同運算 系統瓶頸逐漸轉移到 GPU 與 GPU 之間的互連 延遲、功耗與可擴展性成為決定性因素 在這樣

 
 
 
HOT CHIPS 2025: Lightmatter 的 Passage M1000,為什麼 3D Photonic Interposer 是 AI 系統的必然選項

當 AI 系統繼續放大,真正的瓶頸開始出現在封裝層級 隨著 AI 模型規模與系統算力持續擴張,問題早已不只是單顆晶片效能,而是整個系統如何被有效地「組裝」在一起。 單顆 GPU 或 ASIC 無法承載完整模型與資料流 系統效能高度依賴晶片之間的互連頻寬與延遲 封裝不再只是把晶片放在一起,而是系統效能的一部分 傳統封裝與互連方式逐漸接近物理極限 Lightmatter 的核心判斷是,如果 AI 系統

 
 
 
HOT CHIPS 2025: Ayar Labs 的 UCIe Optical I/O Retimer,為 AI Scale-up 打開新的互連層級

AI Scale-up 的本質問題其實是互連,而不是算力 在大型 AI 訓練與推論系統中,效能不再只由單顆 GPU 或 ASIC 決定,而是取決於整個系統是否能像一顆「更大的電腦」那樣協同運作。 模型規模持續擴大,單顆晶片已無法承載完整運算 Scale-up 架構需要讓多顆 GPU 以低延遲、高頻寬方式緊密協作 傳統電氣互連在距離、功耗與頻寬上逐漸碰到極限 Pluggable optics 雖然解

 
 
 

留言


  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page