top of page

OCP Global Summit 2025_Broadcom_Interconnect Options for Ethernet Scale-Up Networks

前言

在今年的 OCP Global Summit 上,Broadcom 再次展現了它在 AI 網路架構中的主導地位。由 Tomahawk 系列產品負責人 Pete Delbecq 主講的這場演說,主題聚焦在:如何讓 Ethernet 成為 Scale-Up 網路(機架內或叢集內 GPU 通訊)的核心骨幹。

這不僅是技術演進的問題,更是產業策略的轉折點——Broadcom 正在推動一個新概念:

「從 Scale-Out 到 Scale-Up,Ethernet 將統一整個資料中心的通訊層。」

內容

1. Tomahawk Ultra:為 HPC 與 AI Scale-Up 而生

Broadcom 今年正式發布 Tomahawk Ultra,一顆專為 高效能運算(HPC)與 AI Scale-Up 網路 打造的晶片。

這顆晶片的最大亮點是:

  • 延遲低於 250 ns(sub-250 ns latency),可實現 GPU-to-GPU 間 <400 ns 的端到端延遲。

  • 可支援高達 512 個 XPU 節點的單跳 Scale-Up 叢集

  • 提供完整的 Ethernet 基礎協定支援,但刪除了不必要的封包表與虛擬化邏輯,以換取更低延遲。

這意味著 Tomahawk Ultra 不再只是「資料中心交換晶片」,而是一個專為 AI Fabric 所設計的運算型互連核心。


2. Ethernet for Scale-Up Networking (ESUN):AI 時代的以太網再定義

Broadcom 在會中宣布全新的 ESUN(Ethernet for Scale-Up Networking)倡議,由 OpenAI、NVIDIA、AMD、Microsoft、Oracle 等共同推動。

ESUN 的目標是:

  • 建立一套 針對 Scale-Up 網路的 Ethernet 規格

  • 在保持 Ethernet 生態系統兼容性的同時,

    加入 lossless 機制、低延遲鏈路控制(LLR, CBFC) 等關鍵特性。

  • 讓 GPU、NIC、交換機、CXL Fabric 全部在統一協定下運作。

Broadcom 將這稱為 “Ethernet SU Transport” —— 一種簡化的 Ethernet Stack,為機架內 AI 通訊而優化。


3. 從 SU(Scale-Up Transport)到 ESUN 的演進

Broadcom 過去內部稱此架構為 SU(Scale-Up Transport),最初用於協助客戶設計自家 XPU ASIC 時整合 Ethernet。

如今這個概念演進成 ESUN,並具體化成開放生態:

  • ESUN 將專注於 Ethernet Header 以下的層級(PHY、Link、MAC)。

  • 上層協定(如 UALink、UEC、UB Link)則可自由建立於此基礎之上。

  • 支援 Link-Layer Retry(LLR) 與 Credit-Based Flow Control(CBFC),確保像記憶體交易般的 lossless 通訊行為。

Broadcom 將其視為 AI Fabric 標準化的關鍵橋樑


4. Optics, Copper, and CPO:連結技術的選擇策略

Delbecq 在演講中指出:「Copper is king—until it isn’t.

在 200G 與 400G 時代,銅纜(尤其是 Active Electrical Cable, AEC)仍是最經濟、最低延遲的方案。

但隨著頻寬需求持續攀升至 800G 甚至 1.6T,光互連逐漸成為必要。

Broadcom 提出的策略是「延長銅的壽命,平滑過渡至光。

這包含三層選項:

  1. Copper (AEC/DAC):200G–400G 仍具優勢。

  2. Near-Packaged Optics (NPO):過渡階段方案。

  3. Co-Packaged Optics (CPO):最終整合目標。

Meta 的測試數據被引用為關鍵證據:

CPO 系統已累積超過 15M device-hours 無不可修復故障、link flap 為零,訓練效能提升高達 90%。

這些實證讓 Broadcom 更有信心推進 True CPO 架構——

光引擎直接焊接於基板、線路最短、可靠度最高。


5. 封裝選項與系統設計

Broadcom 同步展示三種封裝方案,以支援不同階段的 Scale-Up 架構:

封裝選項

特色

適用場景

BGA (Baseline)

傳統架構,成本低

量產主流伺服器

CPC (On-Substrate Socket)

插拔設計,易維修

中低 I/O 密度晶片

Interposer-based CPO

光引擎直連,最低損耗

高密度交換晶片與 AI Switch

特別是第三種方案,透過將信號快速「離開基板(off-substrate)」,大幅降低插入損耗與熱擴散,是 Broadcom 內部認為最終方向。


6. 為什麼是 Ethernet?

Broadcom 的核心觀點很清楚:

  • Ethernet 是唯一能橫跨 Scale-Up、Scale-Out、與 Scale-Across 的通訊基礎。

  • 它具備統一工具鏈(telemetry、管理、供應鏈)與成熟生態。

  • 使用者可彈性在 GPU Fabric 中混合部署 Scale-Up 與 Scale-Out。

最終目標,是讓資料中心不再需要三套網路(以太網、InfiniBand、專用 fabric),

而是由 Ethernet 一統通訊層,實現真正的「AI Superfabric」。


總結

Broadcom 在 OCP 2025 的訊息十分明確:

AI 時代的 Scale-Up 網路,Ethernet 將取代封閉架構,成為統一語言。

Tomahawk Ultra 只是開始,EON 與 True CPO 的推出代表了 Broadcom 想要掌握的不只是晶片,而是 整個 AI Fabric 標準的話語權

他們不再滿足於「供應乙太網交換晶片」,而是要 重新定義 Ethernet 的角色,讓它從資料中心骨幹延伸至 GPU 晶片封裝邊緣。


延伸觀點

  1. 技術影響

    • Broadcom 正透過 ESUN 讓 Ethernet 成為 AI Fabric 的新共通層,這將影響所有 Switch 與 NIC 廠商的產品設計邏輯。

    • 若 Linear Optics 與 CPO 大規模導入,Ethernet 將在延遲與可靠性上徹底擺脫過去的「高延遲形象」。

  2. 供應鏈觀察

    • Broadcom 的策略是典型的「封裝驅動標準」:先定義封裝架構,再讓模組與協定跟隨。

    • CPO 封裝的普及將推動 封裝基板、光引擎、液冷與測試鏈 的重新洗牌。

  3. 市場趨勢

    • EON 將與 UltraEthernet Consortium(UEC)與 UALink 形成互補,而非競爭。

    • 長期來看,Ethernet-based Scale-Up Network 可能取代 InfiniBand,成為 AI Supercomputing 的主流架構。

最新文章

查看全部
OCP Global Summit 2025_Terahop_Optics for Scale-Up

前言 在 OCP Global Summit 2025 上,Terahop 聚焦於一個核心主題: 「Scale-Up Optics」——當光學連結從機架間走進 GPU 集群內部。 演講中強調,AI 訓練與推論集群的規模與頻寬需求正推動光學應用從「Scale-Out」(跨機架)進化到「Scale-Up」(機架內),而未來更將延伸到「Scale-Across」(跨資料中心)。這是光通訊產業在 AI 時

 
 
 
OCP Global Summit 2025_Credo_Wired for Success: Enhancing AI Cluster Reliability with Copper Cables

前言 在 OCP Global Summit 2025 上, Credo  帶來了一個看似傳統、卻在 AI 時代重新被重視的主題—— 銅纜(Copper)在 AI 資料中心的角色回歸 。 當業界普遍關注光互連(Optical Interconnect)與 CPO 技術時,Credo 以實際部署數據與可靠性分析指出: 在 GPU 密集叢集的近距離連接中,銅纜不僅依然可行,甚至是提高可靠度的關鍵選項。

 
 
 

留言


  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page