ECOC 2025 技術焦點:Meta 評估超大規模資料中心中的共封裝光學 (CPO)
- simpletechtrend
- 10月1日
- 讀畢需時 3 分鐘
前言
AI 模型規模與 GPU 數量的快速成長,使得資料中心的 IO 頻寬需求遠超過運算能力的提升速度。這導致 IO 功耗在整體能耗中佔比上升,進而壓縮了可用於計算的功率。
在 ECOC 2025 上,Meta 發表了針對 CPO 與可插拔光學模組的對比研究,從 功耗、可靠性、與可維護性 等角度,檢視 CPO 是否能成為下一代 Hyperscale Fabric Switch 的主流技術。
內容
1. 背景:Scale-Up 與 Scale-Out 的網路需求
Scale-Up (機櫃內 GPU 互連):距離短 (公尺級),多以銅纜支援,但隨速率增加,通道損耗與功耗問題惡化。
Scale-Out (跨機櫃 / 資料中心):距離 10–100 公尺甚至公里級,目前主要依賴可插拔光模組。
挑戰:
1.6T 世代功耗改善趨勢趨緩,3.2T 世代預期功耗不再明顯下降。
ecoc-2025-技術焦點:meta-評估超大規模資料中心中的共封裝光學-cpo
Rack 設計受限於頻寬 × 距離 (bandwidth-reach product),功耗密度與可靠性壓力驟增。
2. 技術比較:Pluggable vs. LPO/LRO vs. CPO
可插拔 (Pluggable):
成熟、生態完整,具備可維護性。
缺點:功耗與密度限制愈發明顯。
LPO / LRO:
在功耗與成本上具優勢,保留可插拔維護彈性。
挑戰:需更成熟的互通性與生態系。
CPO:
優勢:更低功耗、更高密度。
缺點:光引擎無法場內更換,可靠性與維護模式需重新評估。
3. Meta 的實驗與數據
Meta 建立了大規模硬體與軟體測試平台,在加壓溫環境下比較 Pluggable (MiniPack3) 與 CPO (Broadcom Bally 51.2T):
功耗測試:
相較 Pluggable,CPO 可節省 65% 功耗。
相較 LPO,CPO 節省 35% 功耗。
溫度影響較小,因為雷射置於可替換模組中。
可靠性測試:
累計超過 15M device hours(CPO),對比 2M device hours(Pluggable)。
CPO MTBF:2.6M 小時,約為 Pluggable 的 5 倍。
前 4M 小時未出現任何不可修復 (unserviceable) 失效。
故障案例分析:CPO 故障多為雷射模組或纖芯污染,無需整機更換。
診斷與可維護性:
例:污染纖芯 → 透過反射指標 (MPI) 偵測並清潔即可恢復。
例:雷射偏壓異常 → 換雷射模組即可修復。
結論:CPO 減少人為插拔錯誤,整體可用性提升。
4. CPO 與 AI 訓練效率的關聯
Cluster MTBF 與效率:
LLM 訓練需定期 checkpoint,若中途故障需回滾,效率嚴重受影響。
模擬顯示:當 MTBF 提升 5 倍,大型集群的訓練效率顯著提高。
結論:CPO 不僅降低功耗,還能透過提升可靠性,間接提升 AI 訓練效率。
5. 其他觀點
Socket vs. Solder:Meta 認為無論 socket 或焊接,對 CPO 的場內可維護性幾乎沒有差異。
高功率雷射風險:目前未見失效案例,但隨功率提升,可能出現新失效模式,需持續觀察。
總結
Meta 的研究顯示:
CPO 功耗優勢明顯:相較 Pluggable 減少 65%,相較 LPO 減少 35%。
可靠性大幅改善:MTBF 提升至 Pluggable 的 5 倍,且未出現不可修復故障。
對 AI 訓練效能有直接貢獻:更高 MTBF 意味更高集群運行效率。
挑戰仍在:需持續觀察高功率雷射的可靠性與標準化推進。
整體而言,Meta 給出的訊號很清晰:CPO 已不只是實驗室概念,而是 AI 資料中心後端網路的可行選項,且能在功耗與可靠性上同時帶來突破。
投影片內容




















留言