top of page

OCP Global Summit 2025_Scaling the AI Infrastructure to Data Center Regions_Meta

前言

在這次 OCP Global Summit 2025 上,Meta 分享了他們在 AI 基礎設施擴展上的最新挑戰與解決方案。作為擁有 34 億用戶的平台,Meta 不僅要確保 AI 技術能在廣泛的應用中提供價值,還要處理龐大規模下的基礎設施壓力。從 LLaMA 模型的演進到跨資料中心的巨型集群建設,這場演講完整展現了 AI 時代下基礎設施擴展的難度與創新。


內容

Meta 一開始強調,AI 的應用已經深度融入到平台的每一個面向,從內容安全、廣告排序到推薦系統。然而,隨著大型語言模型(LLM)的爆發,傳統的擴展方式已經無法滿足需求,必須以更高的速度與規模來推進。

他們的基礎設施演進過程十分極端——從最初的小型 GPU 集群,一路發展到能橫跨整個資料中心的超級集群。每一次 GPU 數量翻倍,都伴隨著軟硬體的全面挑戰。Meta 甚至提出了「伺服器 Karma」的概念,用來預測與篩選出容易出問題的伺服器,以確保訓練工作的穩定性。

在網路層面,Meta 提出從 Scale-out、Scale-in 到 Scale-up 的不同發展路徑。Scale-out 依靠成熟的乙太網標準而能夠快速擴展;Scale-in 目前仍存在大量專有協定,但未來也會走向開放;而 Scale-up 則成為 AI 工作負載的關鍵,因為密集的計算需求與 Mixture-of-Experts 模型都需要低延遲的大規模域。這也是為什麼他們推動 Ethernet for Scale-up Networking (ESUN) 與 UEC (Ultra Ethernet Consortium) 的標準化工作。

在硬體建設上,Meta 展示了兩個極具代表性的資料中心計畫:

  • Prometheus (New Albany, Ohio):一個超過 1GW 的彈性建構集群,甚至利用臨時帳篷結構來快速擴展容量。

  • Hyperion (Richland Parish, Louisiana):一個 5GW 的超大單體資料中心,從零開始設計,規模相當於曼哈頓到中央公園北端的步行距離。

另一個挑戰來自硬體多樣性。為了供應鏈彈性與效能最佳化,Meta 不得不導入多種類型的加速器與伺服器,這對軟體開發者提出了更高的抽象需求。他們也展示了 Open Rack Wide 與 AMD Helios 的合作案例,並提到未來必須依靠 光學解耦 (Optical Disaggregation) 來突破銅線限制,實現更大規模的 Scale-up。

最後,演講點出三大痛點:

  1. 電力供應不足

  2. 專業人才短缺

  3. 永續挑戰


總結

這場演講讓人清楚感受到 AI 基礎設施已經進入「從龐大到瘋狂」的階段。Meta 以實際案例說明,AI 訓練對硬體、網路、供電與人力的需求都遠超過以往的想像。


延伸觀點

  1. 技術影響:Meta 提出的光學解耦,與矽光子技術高度相關。若要突破銅線瓶頸,未來的高速模組必然依賴 SiPh 的低功耗特性。

  2. 供應鏈觀察:從伺服器 Karma 到多元加速器,意味著晶片設計公司與模組廠(Broadcom、Marvell、Credo)會在這波轉換中扮演關鍵角色。

  3. 市場趨勢:單一公司動輒 5GW 的投資,代表資料中心 CAPEX 正進入「百億美元級別」。AI 不再是研究型應用,而是推動基礎建設的核心驅動力。

最新文章

查看全部
OCP Global Summit 2025_Meta_Networking for AI Scaling Up, Out, and for the Future

前言 在 OCP 2025 上, Meta  分享了其在 AI 時代中對網路架構的深度思考——從全球網路佈局、資料中心設計到 AI 集群的互連拓撲,Meta 強調「 Networking is everywhere in AI 」。隨著 GPU 集群規模從數千顆到數百萬顆的躍升,網路的角色不再只是支撐,而是 AI 計算架構的中樞。Meta 的願景是打造「 開放、模組化、跨世代相容的 AI 網路基礎

 
 
 
OCP Global Summit 2025_Credo & Oracle_The Path to Zero Flap: Reinventing Optical Reliability for Scalable AI Clusters

前言 AI 時代的資料中心正進入「 兆瓦級叢集 」的時代。當單一叢集規模從 3MW 成長到 30MW,再到 300MW、1GW 甚至 10GW,網路穩定性成為關鍵命脈。 在這樣的超大規模環境中, Link Flap(鏈路閃斷)  已成為阻礙 AI Fabric 擴展的最大隱憂。 在 OCP 2025, Credo  與  Oracle Cloud Infrastructure(OCI)  共同發表

 
 
 
OCP Global Summit 2025_Broadcom_Scale-Out Networks and Scale-Up Architectures with CPO

前言 在 OCP Global Summit 2025 上,Broadcom 分享了他們對 AI 時代資料中心網路的最新架構觀點,主題為  「Scale-Out Networks and Scale-Up Architectures with CPO」 。Broadcom 強調,隨著 GPU 集群規模快速成長,僅靠電性互連已無法滿足訓練效率與能耗的需求, CPO(Co-Packaged Optic

 
 
 

留言


  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page