OFC 2026 - AI Interconnect Scale-Up 與 CPO 可靠度深度解析 - Meta Platforms
- 2天前
- 讀畢需時 4 分鐘
在今年的 OFC 2026 盛會中,Meta Platforms 的 Andrew Alduino 帶來了關於 AI 互連架構演進的重量級演說 。隨著生成式 AI 對算力的渴求已跨入「超級智慧 (Superintelligence)」階段,Meta 揭示了其在光學擴展 (Optical Scale-up) 網路與共同封裝光學 (CPO) 技術上的最新實驗數據 。這場演說不僅重新定義了 CPO 的可靠度標竿,更為未來 1.6T 甚至更高速率的互連方案指明了方向。
5GW 時代的挑戰:從 Manhattan 規模到 GB300 叢集
Meta 目前面臨著支撐 34 億日活躍用戶 (DAU) 的龐大基建挑戰 。為了實現超級智慧的目標,Meta 宣布將投入數千億美元於運算資源 ,預計 2026 年的資本支出 (CapEx) 將超過 1150 億美元 。
數據中心「城市化」
Meta 揭露了代號為 Hyperion 的數據中心計畫,其在路易斯安那州的單一場地容量預計達到 5GW 。根據簡報展示的對比圖,這座數據中心的佔地面積已顯著覆蓋了曼哈頓的一大部分 。[💡 編輯建議:此處可插入簡報第 2 頁的數據中心佔地對比圖]
機架架構的極限演進
在互連硬體方面,機架結構正經歷劇烈變革:
GB300 時代:單機架可部署 72 個加速器,採用銅纜背板與液冷技術 。
144 節點雙寬機架 (Double-Wide):雖然銅纜技術(如 Retimer 輔助)能勉強支撐到 144 個節點 ,但當規模需進一步擴大至 256 節點以上時,銅纜的功耗、重量與物理限制將成為不可逾越的障礙 。
光學擴展 (Optical Scale-up):這正是 Meta 積極推動 CPO 與 OCI (Optical Compute Interconnect) 的核心動力 。
CPO vs. 插拔式模組:65% 功耗節省的代價
Andrew Alduino 指出,光學技術的選擇本質上是各項指標的權衡 。
根據 Meta 的測試結果,CPO 在性能與效率上展現了壓倒性優勢:
功耗節省:CPO 鏈路相較於傳統 Retimed Pluggable 可省下 65% 的功耗;相較於 LPO (線性驅動插拔式光學) 在 $100Gbps/lane$ 速率下也能節省 35% 。
系統級效益:在一台 51.2T 的交換器系統中,採用 CPO 可節省超過 500W 的電力 。
雖然 CPO 在成熟度、維護性 (Serviceability) 與生態系上仍面臨挑戰 ,但其低延遲與高密度的特性,使其成為 256 節點以上 Scale-up 網域的必然選擇 。
9000 萬小時實測:打破 CPO 「不可靠」的迷思
長期以來,業界對 CPO 的最大疑慮在於其故障後的「破壞半徑 (Blast Radius)」過大 。Meta 此次公布了基於 Bailly CPO 系統 的大規模可靠度評估數據,樣本量高達 9000 萬累積設備小時(400G 埠等效)。
可靠度數據對陣 (MTBF 數值)
技術方案 | 測試條件 | 累積設備小時 | MTBF (百萬小時) |
2x400G FR4 插拔式模組 | 40degC 壓力測試 | ~8M | 0.71M |
CPO Phase 1 (全故障統計) | 40degC 壓力測試 | >40M | 1.47M |
CPO Phase 1 (排除 PLS 特定問題)* | 40degC 壓力測試 | >40M | 8.2M |
CPO Phase 2 (非維修組件) | 常溫 (Room Temp) | >50M | 故障數過少難以統計 |
*註:PLS 問題定位為雷射驅動電路的 SMT 元件退化,非 CPO 基礎架構缺陷 。
故障解析 (Failure Pareto)
Meta 發現,Phase 1 CPO 的主要故障源來自於 ELSFP (外部雷射源) 的驅動電路問題 。若排除此已知且可透過重新設計修正的元件問題,CPO 的可靠度 (MTBF) 較插拔式模組提升了 超過 10 倍 。
值得注意的是,不論是插拔式還是 CPO,「髒污的光纖與連接器」依然是影響穩定性的共通挑戰 。
產業鏈觀點:從封閉走向開放的 OCI MSA
為了加速光學擴展方案的落地,Meta 已聯手 5 家合作夥伴共同推動 OCI MSA (www.oci-msa.org) 。
NVIDIA 與 AMD:Meta 已與這兩大 GPU 巨頭達成深度合作,確保算力架構與光學互連的相容性 。
Corning:在光纖基建方面提供產能支援 。
Meta 的策略很明確:透過內部研發的 MTIA 加速器 與外部大廠合作並行,利用 CPO 技術將 AI 叢集的連結規模從機架級推向數據中心級。
Andrew Alduino 在 OFC 2026 的這份報告具有標誌性意義。過去我們討論 CPO 更多停留在「節能」的學術層面,而 Meta 的 9000 萬小時數據則有力證明了 「集成度越高,可靠度越高」 的工程定律 。
未來 趨勢預判:
銅光轉折點提前:隨著 GB300 等超高密度機架普及,銅纜的物理重量與散熱壓力將促使大廠在 2026 年底前啟動小規模 CPO/OCI 叢集部署。
ELSFP 成為戰場:既然雷射源故障是主要痛點,具備高效能外部雷射模組研發能力的廠商(如 Broadcom, Lumentum)將在供應鏈中佔據更關鍵地位。
測試環節前移:CPO 要求在封裝階段即進行系統級測試,這將改變光通訊產業鏈的利潤分配,封測廠 (OSAT) 與交換機 ODM 的角色將更加吃重。
「小型零件包的可靠度優於大型零件包」 ——這句話將成為未來幾年 AI 基建設計者的座右銘。






















留言