top of page

OCP Global Summit 2025_Broadcom_Scale-Out Networks and Scale-Up Architectures with CPO

前言

在 OCP Global Summit 2025 上,Broadcom 分享了他們對 AI 時代資料中心網路的最新架構觀點,主題為 「Scale-Out Networks and Scale-Up Architectures with CPO」。Broadcom 強調,隨著 GPU 集群規模快速成長,僅靠電性互連已無法滿足訓練效率與能耗的需求,CPO(Co-Packaged Optics)與光背板(Optical Backplane) 將成為新一代 AI 基礎設施的關鍵。


內容

1. 從 Scale-Up 到 Scale-Out:電互連的極限

Broadcom 將資料中心網路分為兩個方向:

  • Scale-Up:在單一機架或機列內擴展,著重高頻寬、低延遲的近距離連接。

  • Scale-Out:跨多機架擴展,用於連接上萬顆 GPU 的大規模叢集。

過去 NVIDIA 透過 NVLink 與 NVL72 打造電性 backplane,把「scale-up」做進機架內。但 Broadcom 指出,當系統規模進一步成長至數千或數萬個 GPU 時,電訊號損耗與走線距離成為瓶頸,這時就必須轉向 光互連的 backplane


2. CPO 與 Optical Backplane:邁向光域架構

Broadcom 以 CPO + Optical Backplane 的架構,讓 scale-up 可延伸至整排(in-row)甚至整個機房。藉由將光模組與交換 ASIC 封裝在同一基板上,能實現:

  • 更低的功耗(每埠 5.5W)

  • 更高的可靠性(MTBF 提升五倍以上)

  • 零連接器損耗與更高密度佈局

Meta 的實測數據顯示,CPO 系統在 100G/lane 下功耗可比傳統 pluggable optics 減少 65%,比 LPO 再低 35%,且在 1 百萬小時運行測試中無任何 link flap


3. 整體效率:從硬體到訓練效能

Broadcom 指出,CPO 的價值不僅在於功耗降低,更在於「訓練效率提升」。

在一個擁有 24,000 顆 GPU 的叢集上,CPO 相比可插拔模組(Pluggables)能實現 90% 的訓練效率提升

原因在於傳統連線發生瞬斷(link flap)時,訓練作業必須回到上一次 checkpoint,而 CPO 的穩定度可大幅減少這類中斷,使叢集能長時間連續運行。


4. Broadcom 的產品世代演進

Broadcom 展示了三代 CPO 系列的進展:

  • Gen1 Humboldt (Tomahawk 4):與 Tencent 進行小規模部署,主要驗證封裝與維修機制。

  • Gen2 Bailey (Tomahawk 5):Meta 參與測試,進一步提升穩定性與可維護性。

  • Gen3 Davidson (Tomahawk 6):支援 200G/lane、100T 交換容量,功耗更低、光連線更穩定,並採用 TSMC Co-Packaged Process (COUPE) 將 EIC 與 SiPh PIC 整合製程化,以支援量產。

Broadcom 同時指出,他們正推動 ELSFP 標準化雷射模組,希望 CPO 不再侷限於客製化封裝,而能讓既有模組產線也能製造,進一步推動產業量產成熟度。


5. 製造與量產挑戰

針對現場提問「CPO 製造是否足夠成熟」,Broadcom 表示目前仍有部分人工組裝流程,但他們正與 TSMC 及多家封裝廠合作擴充產能。

短期內(未來兩年)仍以 scale-out 為主要應用場景;要進一步進入 scale-up 層級,需更多可靠性數據與長期運轉驗證。


6. 開放生態與產業合作

Broadcom 強調,CPO 的生態必須開放而非封閉。他們正與 NVIDIA、Meta、Cisco、Marvell 等公司 合作推動標準化,也支持「混合封裝架構」——例如半數埠使用 CPO,半數仍採用電性連接,以滿足不同部署需求。


總結

Broadcom 在 OCP 2025 的演講再次強調:CPO 已不只是技術概念,而是可實際運作、能顯著提升叢集效能的架構方案

透過與生態夥伴的協作與封裝技術成熟化,Broadcom 期望讓 CPO 成為連接「scale-up 與 scale-out」的關鍵橋樑,並持續推動標準化與製程自動化,最終讓光互連成為 AI 資料中心的基礎設施主流。


延伸觀點

  1. 技術影響

    • Broadcom 的 Tomahawk + CPO 平台已成為 Hyperscaler 架構的實驗標準。這種「光封裝」模式將進一步推動 光電協同設計(EIC + PIC Co-Packaging) 成為主流,也讓光學模組廠被迫升級製程與測試能力。

  2. 供應鏈觀察

    • 隨著 Broadcom 將 PIC 封裝交由 TSMC,意味著光電整合從傳統模組組裝轉向晶圓級製造,SiPh foundry 的角色被正式拉進主流光通訊供應鏈

    • ELSFP 標準的推動,則可能促使 Lumentum、Innolight、Accelink 等廠商加入共製生態,降低單一供應風險。

  3. 市場趨勢

    • Broadcom 將「90% 訓練效率提升」作為核心賣點,顯示市場焦點正從功耗轉向 整體 AI 運算生產力(Cluster Productivity)

    • 隨著 CPO 從 100G/lane 過渡至 200G/lane、並搭配 Optical Backplane 架構,AI 資料中心將邁入單機架兆瓦級、跨機房光域化的時代

最新文章

查看全部
OCP Global Summit 2025_Marvell & Jabil_Next Generation Co-Packaged Optics System

前言 在 OCP Global Summit 2025 上,Marvell 與 Jabil 聯合展示了他們最新的  Co-Packaged Optics(CPO)系統設計 。這次的分享聚焦於系統整合,而非單純光學模組層面,展現從  電晶片、光學引擎、系統板設計、冷卻、製造到部署  的全棧協同。Marvell 強調:「CPO 已不再是 ‘if’,而是 ‘when’。」這意味著,隨著 AI 與高速運算

 
 
 
OCP Global Summit 2025_Astera Labs_Scaling AI with PCIe, Ethernet, and UALink Retimers

前言 在今年的 OCP Global Summit 中, Astera Labs  帶來的主題「 Scaling AI with PCIe, Ethernet, and UALink Retimers 」不僅是產品發表,更是一場關於  AI Infrastructure 2.0 架構演進的宣言 。 隨著 AI 模型規模爆炸式增長,Astera 強調: 「伺服器不再是運算單位,整個機架(Rack)才

 
 
 
OCP Global Summit 2025_Astera Labs_Trust at 64 GT/s: Security Considerations for PCIe 6 Switch Deployments

前言 在 AI 資料中心與高頻寬計算快速擴張的背景下, PCIe 6.0  已成為關鍵的互連主幹。而隨著速率提升至  64 GT/s 、通道數暴增,連接範圍從伺服器延伸到整個機架甚至多機架, 安全性問題  成為設計中不可忽視的挑戰。 在 OCP 2025, Astera Labs  的技術長 Abdeshavia 帶來的主題演講—— 「Trust at 64 GT/s」 ,針對 PCIe Gen6

 
 
 

留言


  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page