OCP Global Summit 2025_Scaling the AI Infrastructure to Data Center Regions_Meta

drshawnchang
10月15日
讀畢需時 2 分鐘

前言

在這次 OCP Global Summit 2025 上，Meta 分享了他們在 AI 基礎設施擴展上的最新挑戰與解決方案。作為擁有 34 億用戶的平台，Meta 不僅要確保 AI 技術能在廣泛的應用中提供價值，還要處理龐大規模下的基礎設施壓力。從 LLaMA 模型的演進到跨資料中心的巨型集群建設，這場演講完整展現了 AI 時代下基礎設施擴展的難度與創新。

內容

Meta 一開始強調，AI 的應用已經深度融入到平台的每一個面向，從內容安全、廣告排序到推薦系統。然而，隨著大型語言模型（LLM）的爆發，傳統的擴展方式已經無法滿足需求，必須以更高的速度與規模來推進。

他們的基礎設施演進過程十分極端——從最初的小型 GPU 集群，一路發展到能橫跨整個資料中心的超級集群。每一次 GPU 數量翻倍，都伴隨著軟硬體的全面挑戰。Meta 甚至提出了「伺服器 Karma」的概念，用來預測與篩選出容易出問題的伺服器，以確保訓練工作的穩定性。

在網路層面，Meta 提出從 Scale-out、Scale-in 到 Scale-up 的不同發展路徑。Scale-out 依靠成熟的乙太網標準而能夠快速擴展；Scale-in 目前仍存在大量專有協定，但未來也會走向開放；而 Scale-up 則成為 AI 工作負載的關鍵，因為密集的計算需求與 Mixture-of-Experts 模型都需要低延遲的大規模域。這也是為什麼他們推動 Ethernet for Scale-up Networking (ESUN) 與 UEC (Ultra Ethernet Consortium) 的標準化工作。

在硬體建設上，Meta 展示了兩個極具代表性的資料中心計畫：

Prometheus (New Albany, Ohio)：一個超過 1GW 的彈性建構集群，甚至利用臨時帳篷結構來快速擴展容量。
Hyperion (Richland Parish, Louisiana)：一個 5GW 的超大單體資料中心，從零開始設計，規模相當於曼哈頓到中央公園北端的步行距離。

另一個挑戰來自硬體多樣性。為了供應鏈彈性與效能最佳化，Meta 不得不導入多種類型的加速器與伺服器，這對軟體開發者提出了更高的抽象需求。他們也展示了 Open Rack Wide 與 AMD Helios 的合作案例，並提到未來必須依靠 光學解耦 (Optical Disaggregation) 來突破銅線限制，實現更大規模的 Scale-up。

最後，演講點出三大痛點：

電力供應不足
專業人才短缺
永續挑戰

總結

這場演講讓人清楚感受到 AI 基礎設施已經進入「從龐大到瘋狂」的階段。Meta 以實際案例說明，AI 訓練對硬體、網路、供電與人力的需求都遠超過以往的想像。

延伸觀點

技術影響：Meta 提出的光學解耦，與矽光子技術高度相關。若要突破銅線瓶頸，未來的高速模組必然依賴 SiPh 的低功耗特性。
供應鏈觀察：從伺服器 Karma 到多元加速器，意味著晶片設計公司與模組廠（Broadcom、Marvell、Credo）會在這波轉換中扮演關鍵角色。
市場趨勢：單一公司動輒 5GW 的投資，代表資料中心 CAPEX 正進入「百億美元級別」。AI 不再是研究型應用，而是推動基礎建設的核心驅動力。

OCP Global Summit 2025_Scaling the AI Infrastructure to Data Center Regions_Meta

前言

內容

總結

延伸觀點

最新文章

留言