OCP Global Summit 2025_Broadcom & Arista_The Scale-Up Ethernet (SUE) Framework for AI/ML Accelerators
- simpletechtrend
- 11月3日
- 讀畢需時 4 分鐘
前言
AI 時代的網路架構正從「Scale-Out」走向「Scale-Up」。
Broadcom 與 Arista 在 OCP 2025 提出全新的 SUE (Scale-Up Ethernet) 框架,
目標是將 Ethernet 延伸至加速器間的高頻寬、低延遲互連領域,
成為 GPU / XPU 之間記憶體共享與協同運算的基礎協定。
Broadcom 的資深架構師 Mohan Kalkunte 在演講中指出:
「今天的 AI Networking 有三個層級:Scale-Up、Scale-Out、Scale-Across。Ethernet 已經主導 Scale-Out,而現在它也準備好接管 Scale-Up。」
這場演講展示了 Ethernet 技術如何透過架構分層、協定細化與開放標準化,
打破封閉的 GPU Fabric 模型,讓不同加速器廠商都能在同一個生態中互通。
內容
1. 從 Scale-Out 到 Scale-Up:AI 網路的下一階段
過去 AI 訓練的主要挑戰在於如何連接數千顆 GPU(Scale-Out)。
但現在,單一叢集內部的 GPU 數量已經突破數百顆,
機架內高速互連(Scale-Up) 成為系統效能瓶頸。
Broadcom 將這兩種網路層級明確區分:
網路類型 | 典型用途 | 連線數量 | 介面距離 | 核心技術 |
Scale-Up | 機架內 GPU 互連 | 10–100+ | <10m | Copper / Short-Reach Optics |
Scale-Out | 機架間叢集互連 | 1,000–100,000+ | 10–100m | Ethernet Fabric |
Scale-Across | 資料中心間互連 | 100K–1M GPUs | km 級距離 | Coherent Ethernet / WAN Overlay |
SUE (Scale-Up Ethernet) 就是為第一層「Rack-Scale Fabric」而設計,
讓 GPU 之間能透過 Ethernet-based 架構共享記憶體、傳輸 Tensor Data,
達成「一個叢集像一顆巨型 GPU」的運算模型。
2. 為何要用 Ethernet 來做 Scale-Up?
傳統 GPU Fabric(如 NVLink、Infinity Fabric)屬於專有架構:
難以跨廠商整合;
協定不開放,封包層難擴展;
物理層成本高、缺乏標準。
Broadcom 指出,以 Ethernet 為基礎可帶來三大優勢:
可擴充(Scalable):可重用既有 Ethernet PHY/MAC、交換晶片與測試基礎。
開放性(Open & Modular):允許各家加速器以自有傳輸層協定運作。
低成本(Cost-Optimized):能沿用成熟的 copper / AEC / optics 生態。
Broadcom 目前已在內部測試中部署多種 SUE Prototype,
其中部分已整合於 Tomahawk 5 / 6 Switch 與 CPO 模組 之中。
3. SUE 架構設計:分離 Transport 與 Network
Broadcom 強調,SUE 的關鍵創新是解耦傳輸層與網路層(Decoupling Transport and Network)。
● 底層:Ethernet Networking (ESAN, Ethernet Scale-Up for Networking)
定義在 Link、MAC、PHY 層,由 Broadcom 與 Arista 主導。
核心功能包括:
Link-Level Retry (LLR)
Thread-Based Flow Control (CBFC)
Optimized Headers & Lightweight Framing
Low-Latency Deterministic Jitter Control
● 上層:SUE Transport
提供給 GPU / XPU 廠商自由實作。
可依應用選擇特定功能,例如:
Transaction Packing
Reliability Layer(Hop-by-Hop 或 End-to-End)
Memory Ordering Models
Congestion & Load Balancing Policies
Encryption / Security Options
Lightweight Retransmission(Go-Back-N)
這種設計讓 SUE 成為一個「協定菜單 (Menu of Choices)」,
不同廠商可根據運算架構、晶片資源與工作負載,自行取捨功能。
4. 高頻寬、高效率、低功耗:AI Fabric 的三大原則
Broadcom 指出,在 GPU 叢集中,每顆 GPU 配有 4~8 組 HBM,總頻寬可達 100 TB/s。
若要讓多顆 GPU 共享記憶體,互連頻寬至少需達到 HBM 頻寬的 1/10。
因此 SUE 的設計遵循三個核心原則:
Bandwidth Density(頻寬密度):
比 Scale-Out Ethernet 高 8–12 倍;
單一 XPU I/O 目標達 3.2~6.4T。
Power Efficiency(能效):
必須嵌入 GPU Die 附近,功耗低於 5W/port;
不可使用傳統 RDMA NIC,否則面積與功耗過高。
Reliability & Determinism(可靠且可預測):
低延遲與低抖動是設計重點;
對少量封包錯誤採輕量重傳,不使用 TCP 式負擔。
5. 實作範例與拓撲
Broadcom 在會中展示了兩種 128 XPU 叢集架構:
拓撲 | Switch 晶片 | GPU I/O | Port 速率 | 結果 |
方案 A | Tomahawk 5 | 3.2T | 400G | 單跳多平面架構 |
方案 B | Tomahawk 6 | 6.4T | 800G | 雙倍頻寬,低延遲 |
目前 SUE 已能支援單層拓撲的百顆 GPU 叢集,
並預期隨低成本光連線(Short-Reach Optics)成熟後,
未來可延伸至跨機架的 Multi-Rack Scale-Up Fabric。
6. 開放標準化:SUE Consortium 與工作小組
Broadcom 已啟動兩個主要工作流:
工作流 | 名稱 | 功能 | 主導單位 |
SUE Transport WG | Scale-Up Ethernet Transport | 定義 XPU 傳輸層協定 | Broadcom + Arista |
ESAN WG | Ethernet Scale-Up for Networking | 定義 MAC/PHY 層功能 | Broadcom 主導 |
EAN WG(預告) | Ethernet AI Networking | Scale-Out 與 Scale-Up 整合 | 多家廠商參與中 |
Broadcom 呼籲更多廠商參與開放協作,
以確保 Ethernet 成為通用的 AI Fabric 技術,
而非僅限於伺服器間的通訊協定。
總結
Broadcom 與 Arista 在 OCP 2025 所提出的 SUE Framework,
象徵 Ethernet 正從資料中心骨幹走向 GPU 核心。
「Ethernet 不再只是網路,它將成為記憶體與運算的統一介質。」
透過開放、模組化、低功耗的架構,SUE 讓各家加速器能以標準化方式互通,
同時保留彈性與差異化。Broadcom 期望,未來的 AI 機架將以 SUE + UALink 為核心,
實現真正開放、可擴充的 Scale-Up Fabric。
延伸觀點
技術影響
SUE 是 Ethernet 演進至「運算互連層」的關鍵里程碑。
它與 UALink (Layer 1–3)、UEC (Layer 4–5) 形成互補關係,構築完整 AI Fabric Stack。
供應鏈觀察
Broadcom 透過 Tomahawk 6 + CPO,結合 Arista 的軟體堆疊,形成硬軟整合生態。
未來 ODM/OEM(如 Supermicro、Dell)可直接採用開放 SUE 架構打造 GPU Rack。
市場趨勢
AI Infrastructure 正從「專有 Fabric」轉向「開放 Ethernet」。
2026~2028 年間,SUE + UALink + CXL 可能成為主流三層開放架構。



留言