top of page

HOT CHIPS 2025: Meta Catalina(NVL72),當 AI 系統開始為「既有資料中心」而設計

Meta 為什麼要自己做 NVL72,而不是直接照表操課

在這場 case study 中,Meta 並不是單純展示一個 NVIDIA NVL72 的客製版本,而是清楚說明一件事:

AI 系統設計,必須服從現實的資料中心條件。

  • Meta 已在資料中心規模部署 AI 超過十年

  • 多數既有資料中心並非為高密度液冷而生

  • AI 擴展速度,已經快過新資料中心的建設速度

  • 系統若無法快速落地,就沒有意義

Catalina 的出發點不是效能最大化,而是「可部署性最大化」。


Catalina 是什麼?邏輯上是 NVL72,物理上不是

Catalina 是 Meta 對 NVLink 72 的重新詮釋。

  • 邏輯層面:單一 72-GPU scale-up domain

  • 互連層面:完整 NVLink switch fabric

  • 軟體層面:對應 Meta 既有 AI stack

但在實體設計上,Meta 做了關鍵分割。

  • 一個 NVL72 被拆成 兩個 IT rack

  • 透過 cross-rack NVLink cable 連接

  • 對外仍然呈現為單一 scale-up domain

這不是妥協,而是刻意的工程選擇。


為什麼 Meta 不接受「單 rack NVL72」

對 Meta 來說,單一超高密度 rack 並非萬靈丹。

  • 多數既有機房以 air cooling 為主

  • 供電架構以 rack-level BBU 為核心

  • 不使用傳統 UPS

  • 電力、冷卻、維運流程高度標準化

若 NVL72 只能存在於「全新液冷資料中心」,就無法快速擴張。


CPU 與記憶體,開始限制 AI 系統

Catalina 最關鍵的設計差異,來自 CPU 與 memory。

  • NVIDIA NVL72:1 CPU 對 2 GPU

  • Meta Catalina:1 CPU 對 1 GPU

帶來的影響非常直接。

  • CPU 數量倍增

  • LPDDR memory 從約 17 TB 提升至 34 TB

  • GPU + CPU coherent memory 接近 48 TB

這不是為了理論效能,而是為了真實 AI workload。


兩個 rack,換來更大的系統彈性

將 NVL72 拆成兩個 rack,讓 Meta 可以:

  • 增加 CPU 與記憶體比例

  • 分散功耗與熱密度

  • 配合既有機房 power envelope

  • 降低單 rack 部署風險

在 Meta 的視角中,

系統穩定度與部署速度,比單 rack 極限密度更重要。


Air-Assisted Liquid Cooling 的真正角色

Catalina 並非純 air-cooled,也不是傳統 direct liquid cooling。

  • GPU、CPU、NVLink switch:液冷

  • 熱交換:透過 ALC 對空氣散熱

  • 本質上是一個大型散熱器系統

這讓 Catalina 能進駐既有 air-cooled 資料中心。

  • 不需全面改造 facility

  • 可快速擴展 AI capacity

  • 適合作為過渡世代方案


液冷真正的難題不是冷,而是「風險控制」

Meta 在 Catalina 中投入大量系統資源處理液冷風險。

  • tray-level leak detection

  • rack-level leak detection

  • ALC-level monitoring

  • facility valve train 聯動控制

這些不是單點保護,而是層級化策略。

  • 小漏:只停 sled

  • 中漏:停 tray

  • 大漏:停 rack 並關閉泵浦

系統設計的重點是「避免事故擴大」。


Rack Management Controller 是系統中樞,而非附屬元件

RMC 在 Catalina 中扮演關鍵角色。

  • 監控所有 tray、switch 與 manifold

  • 聯動液冷系統與 facility

  • 協調 power 與 cooling shutdown

這代表一個轉變:

  • AI rack 不再是被動設備

  • 而是具備自我保護能力的系統單元


Catalina 的網路設計是三層,而不是一層

Catalina 明確區分三種網路。

  • Front-end network:CPU 對外服務

  • Back-end network:GPU scale-out

  • Management / console network:維運與除錯

大量前方布線不是混亂,而是設計結果。


為什麼 Meta 願意為 AI 犧牲成本與複雜度

在 Q&A 中,有人問:這些設計是否真的為 AI?

答案其實寫在取捨中。

  • 願意增加 logging 與 telemetry

  • 願意增加 CLD、RMC 等控制模組

  • 願意接受更高硬體複雜度

因為 AI production 系統最怕的不是效能低,而是不可預期。


Simple Tech and Trend 的觀點

Catalina 顯示了一條與 NVIDIA 不同但同樣合理的路線。

  • NVIDIA 解的是「單 rack 極限工程」

  • Meta 解的是「大規模可部署系統」

當 AI 進入 10 萬 GPU 等級,

能最快、最穩定上線的系統,才是真正的贏家。

Catalina 不是為 benchmark 而生,而是為現實世界的資料中心而生。

最新文章

查看全部
HOT CHIPS 2025: NVIDIA GB200 / GB300 NVL72,從機械與散熱角度看 AI Rack 為何已經不是「伺服器的集合」

NVIDIA 為什麼要先談 MGX,而不是直接談 GB200 在這場 case study 中,NVIDIA 並沒有一開始就介紹 GB200 或 GB300,而是先從 MGX 架構談起,這其實點出了問題的本質。 AI 系統已不再是單一伺服器設計問題 不同客戶在 CPU、GPU、DPU、NIC、管理方式上都有細微差異 即使只改一個模組,也會牽動整個系統重設 反覆客製導致 time-to-market

 
 
 
HOT CHIPS 2025: NVIDIA 為什麼必須把光互連做到 Co-Packaged Silicon Photonics Switch

NVIDIA 面對的問題早已不是單顆晶片效能 在 Hot Chips 2025 的分享中,NVIDIA 很清楚地傳達一個訊息:他們現在解決的問題,不是 GPU 有多快,而是整個 AI 系統能不能有效運作。 單顆 GPU 的算力仍在提升,但系統效能成長開始放緩 大型模型需要數千甚至上萬顆 GPU 協同運算 系統瓶頸逐漸轉移到 GPU 與 GPU 之間的互連 延遲、功耗與可擴展性成為決定性因素 在這樣

 
 
 
HOT CHIPS 2025: Lightmatter 的 Passage M1000,為什麼 3D Photonic Interposer 是 AI 系統的必然選項

當 AI 系統繼續放大,真正的瓶頸開始出現在封裝層級 隨著 AI 模型規模與系統算力持續擴張,問題早已不只是單顆晶片效能,而是整個系統如何被有效地「組裝」在一起。 單顆 GPU 或 ASIC 無法承載完整模型與資料流 系統效能高度依賴晶片之間的互連頻寬與延遲 封裝不再只是把晶片放在一起,而是系統效能的一部分 傳統封裝與互連方式逐漸接近物理極限 Lightmatter 的核心判斷是,如果 AI 系統

 
 
 

留言


  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page