OCP Global Summit 2025_Meta_Networking for AI Scaling Up, Out, and for the Future
- simpletechtrend
- 11月3日
- 讀畢需時 4 分鐘
前言
在 OCP 2025 上,Meta 分享了其在 AI 時代中對網路架構的深度思考——從全球網路佈局、資料中心設計到 AI 集群的互連拓撲,Meta 強調「Networking is everywhere in AI」。隨著 GPU 集群規模從數千顆到數百萬顆的躍升,網路的角色不再只是支撐,而是 AI 計算架構的中樞。Meta 的願景是打造「開放、模組化、跨世代相容的 AI 網路基礎」,讓每一層—from reticle to rack to region—都能實現 scale-up 與 scale-out 的彈性協同。
內容
1. 網路是 AI 的骨架:從全球到晶片
Meta 以自身 35 億用戶的產品流量為例,展示了每一個互動背後都有無數「箭頭」代表網路鏈結。從資料中心內部伺服器之間的連線,到跨大洲的光纖骨幹,每一層都依賴高速、低延遲、可擴充的網路基礎。
全球網路佈局:
Meta 建立了涵蓋全球的 POP 與 Cache 網路,透過海底光纜(如 Africa Connect 與 Water 系列)連結各大洲,讓 AI 應用得以在地化運行。
光纖與電力並重:
Meta 指出「建構光纖的時間幾乎與蓋一座資料中心一樣長」,因此在電力之外,連線性(Connectivity) 也是 AI 基礎設施的關鍵瓶頸。
2. 從 DSF 到 NSF:Meta 的 Scale-Out 網路演進
Meta 去年提出 Disaggregated Scheduled Fabric (DSF),透過排程式架構管理約 4,000 顆 GPU 的 AI 集群。今年,Meta 宣布兩項重大更新:
架構 | GPU 容量 | 特點 | 備註 |
DSF (Distributed Scheduled Fabric) | 4,000~20,000 | 具排程控制的分散式網路 | 去年首度提出 |
NSF (Non-Scheduled Fabric) | >20,000 | 基於 Shallow Buffer Ethernet Switch | 新一代核心架構 |
NSF 採用 Broadcom 51.2T Ethernet 交換晶片與 Shallow Buffer 架構,捨棄集中式排程機制,以更低延遲與彈性負載平衡方式支援數萬顆 GPU 的集群運作。目前已於美國 Ohio 資料中心投入生產,並與 NVIDIA Spectrum 4 與 FBOSS 軟體堆疊整合。
3. 向 Gigawatt 級集群邁進
Meta 的資料中心正在向 Gigawatt-class AI Cluster 擴展。這代表一個資料園區內的 AI 系統功耗將達到傳統城市級別的電力規模。要支撐如此龐大的計算力,Meta 將整個資料中心的網路視為一個「超級機櫃(Super Rack)」。
特點包括:
液冷網路交換機機櫃 (Liquid-cooled Network Rack)
高密度光纖與短距離銅纜混合布線
跨建築的 AI Cluster 互連 (Inter-building AI Training Fabric)
這些系統不僅支援模型訓練,也支援後處理與跨區資料同步,實現從一座資料中心擴展至整個地區的 AI 運算能力。
4. Scale-Up 網路的開放標準化:EESON 計畫
在今年的 OCP 峰會上,Meta 正式宣佈主導啟動Ethernet for Scale-Up Networking (EESON) 計畫。這是一個針對機櫃內高頻寬互連的開放性專案,目標是在 Ethernet 的 MAC/PHY 層定義支援低延遲、高可靠性、AI 專用流量的功能。
架構分層如下:
層級 | 計畫名稱 | 功能 | 主要參與者 |
Transport Layer | SUEE (Scale-Up Ethernet Extension) | 定義 GPU/XPU 間的傳輸協定 | Broadcom、Meta |
Ethernet Layer | EON (Ethernet Open Network) | 優化 Ethernet framing 與 flow control | Meta、Cisco、Arista |
System Integration | EESON (Ethernet for Scale-Up Networking) | 提供業界統一開放標準 | Meta 主導、OCP 協作 |
這項倡議目的是避免每一家 GPU / ASIC 廠商都需開發自己專屬的互連 Fabric。Meta 希望讓 Ethernet 成為通用的 Scale-Up 語言,取代封閉的 NVLink 或 Infinity Fabric。
5. 開放硬體與軟體生態
Meta 的開放精神不僅體現在架構,更體現在系統層面:
硬體層:
MiniAC 3N(採用 NVIDIA Spectrum 4 ASIC)
MiniPack 3 系列交換機
液冷式高密度機櫃設計
軟體層:
FBOSS(開源交換機作業系統)
OpenBMC(伺服器管理)
OCP SAI(Switch Abstraction Interface)
這些都被整合至 Meta 的 Non-Scheduled Fabric (NSF),
成為下一代 AI Cluster 網路基礎。
總結
Meta 的網路藍圖展現了未來十年 AI 基礎設施的核心轉折點:
從「單一資料中心」走向「跨地區 AI Fabric」。
「Networking is the hidden enabler of AI. Every arrow is a network.」
透過開放架構(EESON, SUEE, EON),Meta 讓 Ethernet 不僅是 Scale-Out 的骨幹,更成為 Scale-Up 的通用互連語言,重新定義 AI 網路的邊界與標準。
延伸觀點
1. 技術演進:Ethernet 從 Fabric 到 Silicon
Meta 的策略代表 Ethernet 的垂直整合時代:
過去 Ethernet 僅為網路層技術;
現在,它向下滲透到 晶片互連層 (Scale-Up),向上延伸至 地區性 AI Fabric (Scale-Across)。這意味著未來的 Ethernet 將成為「從晶片到全球」的統一介面。
2. 供應鏈觀察:Meta 的多代並行策略
Meta 特別提到 fleet management 的挑戰:不同代 GPU、NIC、Switch、Optics 必須同時共存。這也促使 Meta 採取 多層開放平台 的協同模式,讓 Broadcom、NVIDIA、Cisco、Arista 都能接入其生態。
3. 市場啟示:Open Scale-Up 是下一個戰場
OCP 2025 明確揭示:
Scale-Up Ethernet 將成為繼 CPO 之後的產業焦點。各家廠商正爭奪誰能定義「AI Rack 內的標準互連」。Meta 以開放標準搶先一步,在未來的 Rack-scale AI Fabric 戰爭中取得關鍵話語權。



留言