HOT CHIPS 2025: Meta Catalina(NVL72),當 AI 系統開始為「既有資料中心」而設計
- simpletechtrend
- 4天前
- 讀畢需時 3 分鐘
Meta 為什麼要自己做 NVL72,而不是直接照表操課
在這場 case study 中,Meta 並不是單純展示一個 NVIDIA NVL72 的客製版本,而是清楚說明一件事:
AI 系統設計,必須服從現實的資料中心條件。
Meta 已在資料中心規模部署 AI 超過十年
多數既有資料中心並非為高密度液冷而生
AI 擴展速度,已經快過新資料中心的建設速度
系統若無法快速落地,就沒有意義
Catalina 的出發點不是效能最大化,而是「可部署性最大化」。
Catalina 是什麼?邏輯上是 NVL72,物理上不是
Catalina 是 Meta 對 NVLink 72 的重新詮釋。
邏輯層面:單一 72-GPU scale-up domain
互連層面:完整 NVLink switch fabric
軟體層面:對應 Meta 既有 AI stack
但在實體設計上,Meta 做了關鍵分割。
一個 NVL72 被拆成 兩個 IT rack
透過 cross-rack NVLink cable 連接
對外仍然呈現為單一 scale-up domain
這不是妥協,而是刻意的工程選擇。
為什麼 Meta 不接受「單 rack NVL72」
對 Meta 來說,單一超高密度 rack 並非萬靈丹。
多數既有機房以 air cooling 為主
供電架構以 rack-level BBU 為核心
不使用傳統 UPS
電力、冷卻、維運流程高度標準化
若 NVL72 只能存在於「全新液冷資料中心」,就無法快速擴張。
CPU 與記憶體,開始限制 AI 系統
Catalina 最關鍵的設計差異,來自 CPU 與 memory。
NVIDIA NVL72:1 CPU 對 2 GPU
Meta Catalina:1 CPU 對 1 GPU
帶來的影響非常直接。
CPU 數量倍增
LPDDR memory 從約 17 TB 提升至 34 TB
GPU + CPU coherent memory 接近 48 TB
這不是為了理論效能,而是為了真實 AI workload。
兩個 rack,換來更大的系統彈性
將 NVL72 拆成兩個 rack,讓 Meta 可以:
增加 CPU 與記憶體比例
分散功耗與熱密度
配合既有機房 power envelope
降低單 rack 部署風險
在 Meta 的視角中,
系統穩定度與部署速度,比單 rack 極限密度更重要。
Air-Assisted Liquid Cooling 的真正角色
Catalina 並非純 air-cooled,也不是傳統 direct liquid cooling。
GPU、CPU、NVLink switch:液冷
熱交換:透過 ALC 對空氣散熱
本質上是一個大型散熱器系統
這讓 Catalina 能進駐既有 air-cooled 資料中心。
不需全面改造 facility
可快速擴展 AI capacity
適合作為過渡世代方案
液冷真正的難題不是冷,而是「風險控制」
Meta 在 Catalina 中投入大量系統資源處理液冷風險。
tray-level leak detection
rack-level leak detection
ALC-level monitoring
facility valve train 聯動控制
這些不是單點保護,而是層級化策略。
小漏:只停 sled
中漏:停 tray
大漏:停 rack 並關閉泵浦
系統設計的重點是「避免事故擴大」。
Rack Management Controller 是系統中樞,而非附屬元件
RMC 在 Catalina 中扮演關鍵角色。
監控所有 tray、switch 與 manifold
聯動液冷系統與 facility
協調 power 與 cooling shutdown
這代表一個轉變:
AI rack 不再是被動設備
而是具備自我保護能力的系統單元
Catalina 的網路設計是三層,而不是一層
Catalina 明確區分三種網路。
Front-end network:CPU 對外服務
Back-end network:GPU scale-out
Management / console network:維運與除錯
大量前方布線不是混亂,而是設計結果。
為什麼 Meta 願意為 AI 犧牲成本與複雜度
在 Q&A 中,有人問:這些設計是否真的為 AI?
答案其實寫在取捨中。
願意增加 logging 與 telemetry
願意增加 CLD、RMC 等控制模組
願意接受更高硬體複雜度
因為 AI production 系統最怕的不是效能低,而是不可預期。
Simple Tech and Trend 的觀點
Catalina 顯示了一條與 NVIDIA 不同但同樣合理的路線。
NVIDIA 解的是「單 rack 極限工程」
Meta 解的是「大規模可部署系統」
當 AI 進入 10 萬 GPU 等級,
能最快、最穩定上線的系統,才是真正的贏家。
Catalina 不是為 benchmark 而生,而是為現實世界的資料中心而生。




留言