OCP Global Summit 2025_Scaling the AI Infrastructure to Data Center Regions_Meta
- drshawnchang
- 10月15日
- 讀畢需時 2 分鐘
前言
在這次 OCP Global Summit 2025 上,Meta 分享了他們在 AI 基礎設施擴展上的最新挑戰與解決方案。作為擁有 34 億用戶的平台,Meta 不僅要確保 AI 技術能在廣泛的應用中提供價值,還要處理龐大規模下的基礎設施壓力。從 LLaMA 模型的演進到跨資料中心的巨型集群建設,這場演講完整展現了 AI 時代下基礎設施擴展的難度與創新。
內容
Meta 一開始強調,AI 的應用已經深度融入到平台的每一個面向,從內容安全、廣告排序到推薦系統。然而,隨著大型語言模型(LLM)的爆發,傳統的擴展方式已經無法滿足需求,必須以更高的速度與規模來推進。
他們的基礎設施演進過程十分極端——從最初的小型 GPU 集群,一路發展到能橫跨整個資料中心的超級集群。每一次 GPU 數量翻倍,都伴隨著軟硬體的全面挑戰。Meta 甚至提出了「伺服器 Karma」的概念,用來預測與篩選出容易出問題的伺服器,以確保訓練工作的穩定性。
在網路層面,Meta 提出從 Scale-out、Scale-in 到 Scale-up 的不同發展路徑。Scale-out 依靠成熟的乙太網標準而能夠快速擴展;Scale-in 目前仍存在大量專有協定,但未來也會走向開放;而 Scale-up 則成為 AI 工作負載的關鍵,因為密集的計算需求與 Mixture-of-Experts 模型都需要低延遲的大規模域。這也是為什麼他們推動 Ethernet for Scale-up Networking (ESUN) 與 UEC (Ultra Ethernet Consortium) 的標準化工作。
在硬體建設上,Meta 展示了兩個極具代表性的資料中心計畫:
Prometheus (New Albany, Ohio):一個超過 1GW 的彈性建構集群,甚至利用臨時帳篷結構來快速擴展容量。
Hyperion (Richland Parish, Louisiana):一個 5GW 的超大單體資料中心,從零開始設計,規模相當於曼哈頓到中央公園北端的步行距離。
另一個挑戰來自硬體多樣性。為了供應鏈彈性與效能最佳化,Meta 不得不導入多種類型的加速器與伺服器,這對軟體開發者提出了更高的抽象需求。他們也展示了 Open Rack Wide 與 AMD Helios 的合作案例,並提到未來必須依靠 光學解耦 (Optical Disaggregation) 來突破銅線限制,實現更大規模的 Scale-up。
最後,演講點出三大痛點:
電力供應不足
專業人才短缺
永續挑戰
總結
這場演講讓人清楚感受到 AI 基礎設施已經進入「從龐大到瘋狂」的階段。Meta 以實際案例說明,AI 訓練對硬體、網路、供電與人力的需求都遠超過以往的想像。
延伸觀點
技術影響:Meta 提出的光學解耦,與矽光子技術高度相關。若要突破銅線瓶頸,未來的高速模組必然依賴 SiPh 的低功耗特性。
供應鏈觀察:從伺服器 Karma 到多元加速器,意味著晶片設計公司與模組廠(Broadcom、Marvell、Credo)會在這波轉換中扮演關鍵角色。
市場趨勢:單一公司動輒 5GW 的投資,代表資料中心 CAPEX 正進入「百億美元級別」。AI 不再是研究型應用,而是推動基礎建設的核心驅動力。
留言