top of page

OCP Global Summit 2025_Broadcom & Arista_The Scale-Up Ethernet (SUE) Framework for AI/ML Accelerators

前言

AI 時代的網路架構正從「Scale-Out」走向「Scale-Up」。

Broadcom 與 Arista 在 OCP 2025 提出全新的 SUE (Scale-Up Ethernet) 框架,

目標是將 Ethernet 延伸至加速器間的高頻寬、低延遲互連領域,

成為 GPU / XPU 之間記憶體共享與協同運算的基礎協定。

Broadcom 的資深架構師 Mohan Kalkunte 在演講中指出:

「今天的 AI Networking 有三個層級:Scale-Up、Scale-Out、Scale-Across。Ethernet 已經主導 Scale-Out,而現在它也準備好接管 Scale-Up。」

這場演講展示了 Ethernet 技術如何透過架構分層、協定細化與開放標準化,

打破封閉的 GPU Fabric 模型,讓不同加速器廠商都能在同一個生態中互通。


內容

1. 從 Scale-Out 到 Scale-Up:AI 網路的下一階段

過去 AI 訓練的主要挑戰在於如何連接數千顆 GPU(Scale-Out)。

但現在,單一叢集內部的 GPU 數量已經突破數百顆,

機架內高速互連(Scale-Up) 成為系統效能瓶頸。

Broadcom 將這兩種網路層級明確區分:

網路類型

典型用途

連線數量

介面距離

核心技術

Scale-Up

機架內 GPU 互連

10–100+

<10m

Copper / Short-Reach Optics

Scale-Out

機架間叢集互連

1,000–100,000+

10–100m

Ethernet Fabric

Scale-Across

資料中心間互連

100K–1M GPUs

km 級距離

Coherent Ethernet / WAN Overlay

SUE (Scale-Up Ethernet) 就是為第一層「Rack-Scale Fabric」而設計,

讓 GPU 之間能透過 Ethernet-based 架構共享記憶體、傳輸 Tensor Data,

達成「一個叢集像一顆巨型 GPU」的運算模型。


2. 為何要用 Ethernet 來做 Scale-Up?

傳統 GPU Fabric(如 NVLink、Infinity Fabric)屬於專有架構:

  • 難以跨廠商整合;

  • 協定不開放,封包層難擴展;

  • 物理層成本高、缺乏標準。

Broadcom 指出,以 Ethernet 為基礎可帶來三大優勢:

  1. 可擴充(Scalable):可重用既有 Ethernet PHY/MAC、交換晶片與測試基礎。

  2. 開放性(Open & Modular):允許各家加速器以自有傳輸層協定運作。

  3. 低成本(Cost-Optimized):能沿用成熟的 copper / AEC / optics 生態。

Broadcom 目前已在內部測試中部署多種 SUE Prototype,

其中部分已整合於 Tomahawk 5 / 6 Switch 與 CPO 模組 之中。


3. SUE 架構設計:分離 Transport 與 Network

Broadcom 強調,SUE 的關鍵創新是解耦傳輸層與網路層(Decoupling Transport and Network)

● 底層:Ethernet Networking (ESAN, Ethernet Scale-Up for Networking)

  • 定義在 Link、MAC、PHY 層,由 Broadcom 與 Arista 主導。

  • 核心功能包括:

    • Link-Level Retry (LLR)

    • Thread-Based Flow Control (CBFC)

    • Optimized Headers & Lightweight Framing

    • Low-Latency Deterministic Jitter Control

● 上層:SUE Transport

  • 提供給 GPU / XPU 廠商自由實作。

  • 可依應用選擇特定功能,例如:

    • Transaction Packing

    • Reliability Layer(Hop-by-Hop 或 End-to-End)

    • Memory Ordering Models

    • Congestion & Load Balancing Policies

    • Encryption / Security Options

    • Lightweight Retransmission(Go-Back-N)

這種設計讓 SUE 成為一個「協定菜單 (Menu of Choices)」,

不同廠商可根據運算架構、晶片資源與工作負載,自行取捨功能。


4. 高頻寬、高效率、低功耗:AI Fabric 的三大原則

Broadcom 指出,在 GPU 叢集中,每顆 GPU 配有 4~8 組 HBM,總頻寬可達 100 TB/s

若要讓多顆 GPU 共享記憶體,互連頻寬至少需達到 HBM 頻寬的 1/10。

因此 SUE 的設計遵循三個核心原則:

  1. Bandwidth Density(頻寬密度)

    • 比 Scale-Out Ethernet 高 8–12 倍;

    • 單一 XPU I/O 目標達 3.2~6.4T。

  2. Power Efficiency(能效)

    • 必須嵌入 GPU Die 附近,功耗低於 5W/port;

    • 不可使用傳統 RDMA NIC,否則面積與功耗過高。

  3. Reliability & Determinism(可靠且可預測)

    • 低延遲與低抖動是設計重點;

    • 對少量封包錯誤採輕量重傳,不使用 TCP 式負擔。


5. 實作範例與拓撲

Broadcom 在會中展示了兩種 128 XPU 叢集架構:

拓撲

Switch 晶片

GPU I/O

Port 速率

結果

方案 A

Tomahawk 5

3.2T

400G

單跳多平面架構

方案 B

Tomahawk 6

6.4T

800G

雙倍頻寬,低延遲

目前 SUE 已能支援單層拓撲的百顆 GPU 叢集,

並預期隨低成本光連線(Short-Reach Optics)成熟後,

未來可延伸至跨機架的 Multi-Rack Scale-Up Fabric


6. 開放標準化:SUE Consortium 與工作小組

Broadcom 已啟動兩個主要工作流:

工作流

名稱

功能

主導單位

SUE Transport WG

Scale-Up Ethernet Transport

定義 XPU 傳輸層協定

Broadcom + Arista

ESAN WG

Ethernet Scale-Up for Networking

定義 MAC/PHY 層功能

Broadcom 主導

EAN WG(預告)

Ethernet AI Networking

Scale-Out 與 Scale-Up 整合

多家廠商參與中

Broadcom 呼籲更多廠商參與開放協作,

以確保 Ethernet 成為通用的 AI Fabric 技術

而非僅限於伺服器間的通訊協定。


總結

Broadcom 與 Arista 在 OCP 2025 所提出的 SUE Framework

象徵 Ethernet 正從資料中心骨幹走向 GPU 核心。

「Ethernet 不再只是網路,它將成為記憶體與運算的統一介質。」

透過開放、模組化、低功耗的架構,SUE 讓各家加速器能以標準化方式互通,

同時保留彈性與差異化。Broadcom 期望,未來的 AI 機架將以 SUE + UALink 為核心,

實現真正開放、可擴充的 Scale-Up Fabric。


延伸觀點

  1. 技術影響

    • SUE 是 Ethernet 演進至「運算互連層」的關鍵里程碑。

    • 它與 UALink (Layer 1–3)UEC (Layer 4–5) 形成互補關係,構築完整 AI Fabric Stack。

  2. 供應鏈觀察

    • Broadcom 透過 Tomahawk 6 + CPO,結合 Arista 的軟體堆疊,形成硬軟整合生態。

    • 未來 ODM/OEM(如 Supermicro、Dell)可直接採用開放 SUE 架構打造 GPU Rack。

  3. 市場趨勢

    • AI Infrastructure 正從「專有 Fabric」轉向「開放 Ethernet」。

    • 2026~2028 年間,SUE + UALink + CXL 可能成為主流三層開放架構。

最新文章

查看全部
OCP Global Summit 2025_Intel_Scaling AI at the Speed of Openness: From Silicon to Systems

前言 在這場 OCP Global Summit 2025 中,Intel 聚焦於一個關鍵主題:「如何以開放、模組化與異質化的基礎架構推動 AI 基礎設施的擴展」。面對生成式 AI、推理與 Agentic AI 帶來的計算與網路挑戰,Intel 提出了從  矽(silicon)到系統(systems)  的完整願景。這場分享不僅回顧了過去 OCP 社群推動資料中心標準化的經驗,也強調 Intel

 
 
 
OCP Global Summit 2025_Dell_Scaling Data Center Infrastructure

前言 在 OCP Global Summit 2025 上,Dell 分享了他們如何透過  OCP 標準與模組化設計 ,推動資料中心在 AI 與 HPC 時代的基礎設施演進。從 DC-MHS 到 Open Rack v3,再到液冷解決方案,Dell 強調  標準化 + 模組化 + 液冷創新 是應對 GPU 高速演進與超高功耗的核心策略 Scaling Data Center Infrastruct

 
 
 
OCP Global Summit 2025_Oracle_Building Zettascale AI Clusters with OCI: Scaling Together with Open Ecosystem for the Next Gen AI Cluster

前言 Oracle 在 OCP Global Summit 2025 上帶來了關於  如何以 OCI(Oracle Cloud Infrastructure)建構 Zettascale 級別 AI 超級集群  的演講。隨著 AI 基礎設施的快速擴展,Oracle 強調  速度、規模與開放標準  是下一代資料中心的三大核心關鍵,並透過 OCP 社群推動標準化,來降低供應鏈與部署風險 Building

 
 
 

留言


  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page