OCP Global Summit 2025_Broadcom_Scale-Out Networks and Scale-Up Architectures with CPO
- simpletechtrend
- 11月3日
- 讀畢需時 3 分鐘
前言
在 OCP Global Summit 2025 上,Broadcom 分享了他們對 AI 時代資料中心網路的最新架構觀點,主題為 「Scale-Out Networks and Scale-Up Architectures with CPO」。Broadcom 強調,隨著 GPU 集群規模快速成長,僅靠電性互連已無法滿足訓練效率與能耗的需求,CPO(Co-Packaged Optics)與光背板(Optical Backplane) 將成為新一代 AI 基礎設施的關鍵。
內容
1. 從 Scale-Up 到 Scale-Out:電互連的極限
Broadcom 將資料中心網路分為兩個方向:
Scale-Up:在單一機架或機列內擴展,著重高頻寬、低延遲的近距離連接。
Scale-Out:跨多機架擴展,用於連接上萬顆 GPU 的大規模叢集。
過去 NVIDIA 透過 NVLink 與 NVL72 打造電性 backplane,把「scale-up」做進機架內。但 Broadcom 指出,當系統規模進一步成長至數千或數萬個 GPU 時,電訊號損耗與走線距離成為瓶頸,這時就必須轉向 光互連的 backplane。
2. CPO 與 Optical Backplane:邁向光域架構
Broadcom 以 CPO + Optical Backplane 的架構,讓 scale-up 可延伸至整排(in-row)甚至整個機房。藉由將光模組與交換 ASIC 封裝在同一基板上,能實現:
更低的功耗(每埠 5.5W)
更高的可靠性(MTBF 提升五倍以上)
零連接器損耗與更高密度佈局
Meta 的實測數據顯示,CPO 系統在 100G/lane 下功耗可比傳統 pluggable optics 減少 65%,比 LPO 再低 35%,且在 1 百萬小時運行測試中無任何 link flap。
3. 整體效率:從硬體到訓練效能
Broadcom 指出,CPO 的價值不僅在於功耗降低,更在於「訓練效率提升」。
在一個擁有 24,000 顆 GPU 的叢集上,CPO 相比可插拔模組(Pluggables)能實現 90% 的訓練效率提升。
原因在於傳統連線發生瞬斷(link flap)時,訓練作業必須回到上一次 checkpoint,而 CPO 的穩定度可大幅減少這類中斷,使叢集能長時間連續運行。
4. Broadcom 的產品世代演進
Broadcom 展示了三代 CPO 系列的進展:
Gen1 Humboldt (Tomahawk 4):與 Tencent 進行小規模部署,主要驗證封裝與維修機制。
Gen2 Bailey (Tomahawk 5):Meta 參與測試,進一步提升穩定性與可維護性。
Gen3 Davidson (Tomahawk 6):支援 200G/lane、100T 交換容量,功耗更低、光連線更穩定,並採用 TSMC Co-Packaged Process (COUPE) 將 EIC 與 SiPh PIC 整合製程化,以支援量產。
Broadcom 同時指出,他們正推動 ELSFP 標準化雷射模組,希望 CPO 不再侷限於客製化封裝,而能讓既有模組產線也能製造,進一步推動產業量產成熟度。
5. 製造與量產挑戰
針對現場提問「CPO 製造是否足夠成熟」,Broadcom 表示目前仍有部分人工組裝流程,但他們正與 TSMC 及多家封裝廠合作擴充產能。
短期內(未來兩年)仍以 scale-out 為主要應用場景;要進一步進入 scale-up 層級,需更多可靠性數據與長期運轉驗證。
6. 開放生態與產業合作
Broadcom 強調,CPO 的生態必須開放而非封閉。他們正與 NVIDIA、Meta、Cisco、Marvell 等公司 合作推動標準化,也支持「混合封裝架構」——例如半數埠使用 CPO,半數仍採用電性連接,以滿足不同部署需求。
總結
Broadcom 在 OCP 2025 的演講再次強調:CPO 已不只是技術概念,而是可實際運作、能顯著提升叢集效能的架構方案。
透過與生態夥伴的協作與封裝技術成熟化,Broadcom 期望讓 CPO 成為連接「scale-up 與 scale-out」的關鍵橋樑,並持續推動標準化與製程自動化,最終讓光互連成為 AI 資料中心的基礎設施主流。
延伸觀點
技術影響
Broadcom 的 Tomahawk + CPO 平台已成為 Hyperscaler 架構的實驗標準。這種「光封裝」模式將進一步推動 光電協同設計(EIC + PIC Co-Packaging) 成為主流,也讓光學模組廠被迫升級製程與測試能力。
供應鏈觀察
隨著 Broadcom 將 PIC 封裝交由 TSMC,意味著光電整合從傳統模組組裝轉向晶圓級製造,SiPh foundry 的角色被正式拉進主流光通訊供應鏈。
ELSFP 標準的推動,則可能促使 Lumentum、Innolight、Accelink 等廠商加入共製生態,降低單一供應風險。
市場趨勢
Broadcom 將「90% 訓練效率提升」作為核心賣點,顯示市場焦點正從功耗轉向 整體 AI 運算生產力(Cluster Productivity)。
隨著 CPO 從 100G/lane 過渡至 200G/lane、並搭配 Optical Backplane 架構,AI 資料中心將邁入單機架兆瓦級、跨機房光域化的時代。



留言