OCP Global Summit 2025_Broadcom_Scale-Out Networks and Scale-Up Architectures with CPO

simpletechtrend
11月3日
讀畢需時 3 分鐘

前言

在 OCP Global Summit 2025 上，Broadcom 分享了他們對 AI 時代資料中心網路的最新架構觀點，主題為 「Scale-Out Networks and Scale-Up Architectures with CPO」。Broadcom 強調，隨著 GPU 集群規模快速成長，僅靠電性互連已無法滿足訓練效率與能耗的需求，CPO（Co-Packaged Optics）與光背板（Optical Backplane） 將成為新一代 AI 基礎設施的關鍵。

內容

1. 從 Scale-Up 到 Scale-Out：電互連的極限

Broadcom 將資料中心網路分為兩個方向：

Scale-Up：在單一機架或機列內擴展，著重高頻寬、低延遲的近距離連接。
Scale-Out：跨多機架擴展，用於連接上萬顆 GPU 的大規模叢集。

過去 NVIDIA 透過 NVLink 與 NVL72 打造電性 backplane，把「scale-up」做進機架內。但 Broadcom 指出，當系統規模進一步成長至數千或數萬個 GPU 時，電訊號損耗與走線距離成為瓶頸，這時就必須轉向 光互連的 backplane。

2. CPO 與 Optical Backplane：邁向光域架構

Broadcom 以 CPO + Optical Backplane 的架構，讓 scale-up 可延伸至整排（in-row）甚至整個機房。藉由將光模組與交換 ASIC 封裝在同一基板上，能實現：

更低的功耗（每埠 5.5W）
更高的可靠性（MTBF 提升五倍以上）
零連接器損耗與更高密度佈局

Meta 的實測數據顯示，CPO 系統在 100G/lane 下功耗可比傳統 pluggable optics 減少 65%，比 LPO 再低 35%，且在 1 百萬小時運行測試中無任何 link flap。

3. 整體效率：從硬體到訓練效能

Broadcom 指出，CPO 的價值不僅在於功耗降低，更在於「訓練效率提升」。

在一個擁有 24,000 顆 GPU 的叢集上，CPO 相比可插拔模組（Pluggables）能實現 90% 的訓練效率提升。

原因在於傳統連線發生瞬斷（link flap）時，訓練作業必須回到上一次 checkpoint，而 CPO 的穩定度可大幅減少這類中斷，使叢集能長時間連續運行。

4. Broadcom 的產品世代演進

Broadcom 展示了三代 CPO 系列的進展：

Gen1 Humboldt (Tomahawk 4)：與 Tencent 進行小規模部署，主要驗證封裝與維修機制。
Gen2 Bailey (Tomahawk 5)：Meta 參與測試，進一步提升穩定性與可維護性。
Gen3 Davidson (Tomahawk 6)：支援 200G/lane、100T 交換容量，功耗更低、光連線更穩定，並採用 TSMC Co-Packaged Process (COUPE) 將 EIC 與 SiPh PIC 整合製程化，以支援量產。

Broadcom 同時指出，他們正推動 ELSFP 標準化雷射模組，希望 CPO 不再侷限於客製化封裝，而能讓既有模組產線也能製造，進一步推動產業量產成熟度。

5. 製造與量產挑戰

針對現場提問「CPO 製造是否足夠成熟」，Broadcom 表示目前仍有部分人工組裝流程，但他們正與 TSMC 及多家封裝廠合作擴充產能。

短期內（未來兩年）仍以 scale-out 為主要應用場景；要進一步進入 scale-up 層級，需更多可靠性數據與長期運轉驗證。

6. 開放生態與產業合作

Broadcom 強調，CPO 的生態必須開放而非封閉。他們正與 NVIDIA、Meta、Cisco、Marvell 等公司 合作推動標準化，也支持「混合封裝架構」——例如半數埠使用 CPO，半數仍採用電性連接，以滿足不同部署需求。

總結

Broadcom 在 OCP 2025 的演講再次強調：CPO 已不只是技術概念，而是可實際運作、能顯著提升叢集效能的架構方案。

透過與生態夥伴的協作與封裝技術成熟化，Broadcom 期望讓 CPO 成為連接「scale-up 與 scale-out」的關鍵橋樑，並持續推動標準化與製程自動化，最終讓光互連成為 AI 資料中心的基礎設施主流。

延伸觀點

技術影響
- Broadcom 的 Tomahawk + CPO 平台已成為 Hyperscaler 架構的實驗標準。這種「光封裝」模式將進一步推動 光電協同設計（EIC + PIC Co-Packaging） 成為主流，也讓光學模組廠被迫升級製程與測試能力。
供應鏈觀察
- 隨著 Broadcom 將 PIC 封裝交由 TSMC，意味著光電整合從傳統模組組裝轉向晶圓級製造，SiPh foundry 的角色被正式拉進主流光通訊供應鏈。
- ELSFP 標準的推動，則可能促使 Lumentum、Innolight、Accelink 等廠商加入共製生態，降低單一供應風險。
市場趨勢
- Broadcom 將「90% 訓練效率提升」作為核心賣點，顯示市場焦點正從功耗轉向 整體 AI 運算生產力（Cluster Productivity）。
- 隨著 CPO 從 100G/lane 過渡至 200G/lane、並搭配 Optical Backplane 架構，AI 資料中心將邁入單機架兆瓦級、跨機房光域化的時代。