top of page

simple_tech_trend

Simple Tech and Trend

探索最前沿的光電和半導體技術，深入分析產業動態

搜尋

2025 OCP APAC Summit | Scale-up for AI: Balancing Compute, Memory and Networking｜Broadcom

drshawnchang
8月5日
讀畢需時 3 分鐘

摘要

Broadcom 在最新2025 OCP APAC Summit 中提出 Ethernet 為核心的 Scale-up 與 Scale-out 解決方案，用於建構超大規模 AI 訓練叢集。透過 100 Tbps Tomahawk Ultra 交換晶片與 AI Fabric Router，支援從單機架擴展至跨數據中心的分散式運算，實現 <400 ns 低延遲、200,000+ GPU 集群、跨 100 km 連結。此開放標準將推動下一代 AI 基礎架構邁向更高效能、更低功耗與更簡單拓撲的未來。

ree

內容

1. 背景與挑戰

AI 訓練模型的規模呈指數成長，單一機架已無法容納所有運算資源。當運算需求擴展至數百甚至數千 GPU/XPUs 時，系統必須從 機架內擴展（Scale-up） 進一步進入 跨機架與跨數據中心擴展（Scale-out）。此過程對網路的需求變得前所未有地嚴苛：

高頻寬：HPM 與 XPU 間頻寬已達 40–100 Tbps
低延遲：資料交換需在數百奈秒內完成
高可靠性：減少封包錯誤與重傳
能效與擴展性：降低光學與銅纜成本，同時支持更大規模叢集

ree

ree

ree

ree

ree

2. Scale-up 網路的核心要素

2.1 當前瓶頸

銅製背板距離有限，限制單域內 XPU 數量（目前 <100）
現有交換機 Radix 與頻寬不足
隨著 GPU/HPM 接口提升至 100 Tbps，現有拓撲難以支撐

2.2 Broadcom 解決方案

Ethernet 為基礎的 Scale-up (SU) 架構：
- 開放標準，OCP 社群共同制定
- 從 XPU 經以太交換機往返延遲 <400 ns
- 其中交換機延遲僅 250 ns，其餘 150 ns 來自上下堆疊傳輸

ree

Tomahawk Ultra 交換晶片：
- 50 Tbps 頻寬，250 ns 延遲
- 支援未來 100 Tbps 版本，減少光纖需求並簡化網路層級

3. 從 Scale-up 到 Scale-out

3.1 內部 Scale-out（數據中心內）

未來單數據中心可容納 128,000–200,000 GPUs
使用 100 Tbps 交換機 可由兩層拓撲實現更簡單網路：
- 光模組需求減少 67%
- 延遲降低
- 可靠性提升（較少光纖連結與中繼）

ree

ree

3.2 跨數據中心 Scale-out

為達百萬 GPU 集群，需連接多個 50–60 MW 數據中心
Broadcom 推出 AI Fabric Router：
- 支援跨 60–100 km 連結
- 深度緩衝設計，多晶片堆疊，內建 HBM
- 線速加密，確保跨站點資料安全

ree

4. Ethernet 的戰略地位

Broadcom 強調 Ethernet 的普及性、開放性與經濟性：

多廠商可相容
不受專利或授權限制
成本相對專有協議（如 NVLink）低
可持續透過 OCP 社群擴展與優化

5. 技術趨勢與未來發展

介面速率將從 100G SerDes 過渡至 200G、400G
網路拓撲將由 三層縮減至兩層，降低延遲與功耗
光學取代銅纜成為主流，推動超大規模運算擴展
跨數據中心的整合帶來 AI 超級叢集 新形態

結論

Broadcom 以 Ethernet 為核心的 Scale-up/Scale-out 解決方案，成功在低延遲與高頻寬間取得平衡，滿足下一代 AI 超級運算叢集的需求。其開放標準及與 OCP 社群的協作，將推動產業加速從機架內運算邁向跨數據中心的全球分散式 AI 平台。

核心價值包括：

延遲低於 400 ns 的網路互連
100 Tbps 級交換晶片簡化拓撲
支援 200,000+ GPU 集群與跨 100 km 連結
開放標準與產業協作的長期可持續性

未來幾年，隨著 SerDes 升級與光學技術普及，Ethernet 將成為超大規模 AI 訓練的主流互連技術，並帶動整個資料中心架構的革新。

最新文章

2025 OCP APAC Summit | Advanced CPO Integrated by CoWoS and COUPE | TSMC

2025 OCP APAC Summit | Advanced CPO Integrated by CoWoS and COUPE | TSMC

2025 OCP APAC Summit | AI Supply Chain Reinvent: Building a Better Ecosystem | Digitime

摘要 Digitime 指出，AI 與半導體供應鏈正面臨去全球化與再全球化並存的時代。台灣憑藉高密度製造能力、完整供應鏈與靈活協作模式，在全球 AI 硬體生態系中扮演不可取代的樞紐角色。未來十年，台灣有望迎來「黃金十年」，推動全球 AI...

高頻光通訊材料轉折點：InP基板擴產、稀土政策與PD封裝的三重挑戰

隨著 AI 訓練規模與數據中心頻寬需求飆升，高速光模組材料與封裝技術正面臨前所未有的挑戰。IＩInP 基板作為 200G PD 與高速 LD 的關鍵材料，受制於稀土政策與產能轉換，正在重塑全球供應鏈格局。本文將深入解析InP晶圓廠的擴產策略、稀土政策對三五族材料的衝擊...

留言

bottom of page