OFC 2026 - AI/ML 互連新架構:CPO, NPO 與 OCI-MSA 的大廠博弈 - Oracle, Meta, Microsoft, AMD, Arista
- 1天前
- 讀畢需時 4 分鐘
今年 OFC 2026 的 IEEE 專題座談會再次成為全場焦點。隨著 AI 模型從單純的訓練 (Training) 轉向持續性的推理 (Inference) 與自主代理 (AI Agents),運算需求正從 Exascale 邁向 Yottascale (10 million exaflops) 。這場會議不僅定義了下一代 AI 超級集群的物理層架構,更揭示了超大規模數據中心 (Hyperscalers) 在「效能」與「可維護性」之間的劇烈拉鋸。
核心技術觀點:五大巨頭的策略拆解
本次會議由 Oracle、Meta、Microsoft 等終端用戶領銜,與晶片大廠 AMD 及交換器龍頭 Arista 共同探討光學互連的演進路徑。
1. Oracle:可靠性是營收的唯一指標
Oracle OCI 架構師 Mark Filer 指出,OCI 的 AI 集群已從 2020 年的 1.6 萬顆 GPU 成長至 2026 年的 13.1 萬顆 GPU 。
核心痛點:RDMA 傳輸對鏈路抖動極為敏感,在大規模集群下,低機率事件會變成頻繁發生的常態 。
CPO 救贖說:Oracle 認為手動插拔模組是主要的失效模式 。CPO 透過高度整合,預計可提升系統 FIT (Failures in Time) 表現,並在 200G/lane 世代節省高達 50% 的功耗 。
技術警戒:Mark 對於「焊死」的 CPO 表示擔憂,認為這會造成供應鏈鎖定及維修半徑 (Blast Radius) 過大 。













2. Meta:光學背板與 Scale-up 領域擴張
Meta 網路架構師 Rob Stone 強調,為了支撐如 Mixture of Experts (MoE) 等複雜模型,Scale-up 域(加速器間互連)必須從單機櫃擴展至多機櫃 。
OCI-MSA:Meta 與 AMD 等共同推動 OCI-MSA 協議,採用 50G NRZ 低速並行方案,達成低功耗、低延遲的節點間光學互連 。
光學背板 (OBP):Meta 提出了基於「盲插 (Blind-mate) 非接觸式抗污連接器」的機櫃概念 。這能將系統失效更換時間從數小時縮短至分鐘級別 。








3. Microsoft:數據驅動的技術評選準則
Microsoft 的 Benjamin Foo 給出了極具參考價值的技術對比表,針對 100G SerDes 世代進行量化分析 :
技術路徑 | 硬體可靠性 | 功耗預估 (pJ/bit) | 觀測性 (Telemetry) |
LRO (線性重定時) | 已知失效機率,易維修 | 10–14 | 具備完整光/電側遙測 |
LPO (線性驅動) | 已知失效機率,易維修 | 6–8 | 遙測能力受限 |
NPO (近封裝光學) | 維修半徑大,限制現場維修 | 3–4 | 依賴光學遙測 |
CPO (共封裝光學) | 維修半徑大,限制現場維修 | 2–3 | 缺乏主機側監控能力 |
Microsoft 的立場明確:儘管 CPO 功耗最低,但若以犧牲可靠性與遙測能力為代價,微軟寧可選擇功耗略高但生態成熟的方案 。





4. AMD:從 GPU 到光學互連的全面轉向
AMD 的 Shahab Ardalan 指出,AI 推理 Token 需求在過去兩年增長了 100 倍 。
算力密度:AMD 最新發表的 MI350 在相同封裝尺寸下,運算力較 MI300 提升近兩倍,這倒逼互連帶寬必須同步躍升 。
OCI-MSA 量產時程:AMD 預計 OCI-MSA 第一代規範將於 2026 年 3 月 確立,推動產業轉向單纖雙向 (Bi-Di) 與波分復用 (WDM) 的標準化路徑 。










5. Arista:Open CPO 的捍衛者
Arista 資深總監 Sunil Priyadarshi 對「焊死方案」提出了最猛烈的抨擊,稱其為對光學特性的「粗暴對待」 。
Open CPX MSA:Arista 主張採用 Socketed (插槽式) CPO 。這讓光學引擎能像 CPU 一樣更換,避免因單一通道失效就必須報廢整張高價交換器 ASIC 。
內置雷射 (ILS) 優勢:Arista 認為內置雷射能減少介面耦合損耗,相較於外部雷射 (ELS),不僅節省電力,還能騰出 33% 的面板空間 。






產業鏈觀點:共識與分歧點
共識點:
224G 臨界點:所有講者均認同 224G/lane 將是 CPO 進入商用試點的關鍵時刻 。
抗污連接器技術:擴展光束 (Expanded Beam) 連接器被視為解決 CPO 維修災難的必備條件,可減少 20 倍的插拔力並對灰塵免疫 。
分歧點:
雷射置放位置:外部雷射 (ELS) 易於更換但效率低;內置雷射 (ILS) 效率高但受制於封裝熱效應 。
封裝形式:Arista 堅持 Socketed 以確保多供應商生態 ;而部分晶片供應商則傾向焊死以極致優化訊號完整性。
Simple Tech Trend 觀點:
從這場 OFC 2026 的巔峰對話中,我們可以看到 AI 光學互連正處於**「從模組化向封裝化過渡的混亂期」**。
OCI-MSA 的殺傷力:AMD 與 Meta 強推的 OCI-MSA 顯示出 Hyperscalers 繞過傳統模組廠,直接定義矽光子晶片規格的野心。這對傳統光收發模組廠商 (如 Coherent, Lumentum) 將產生巨大的去中間化壓力。
可靠性 (Reliability) 取代功耗成為新神祇:微軟與 Oracle 的發言定調了未來的採購邏輯——如果 CPO 的運作成本 (OpEx) 因高失效率而抵銷了省下的電費 (CapEx),大廠將毫不猶豫地擁抱如 LRO 等過渡方案。
封裝測試 (OSAT) 地位崛起:當 CPO 與 NPO 成為主流,技術關鍵將從光學設計轉向「複雜封裝良率」。台積電的 COWAS 與矽光子整合平台將成為光通訊產業的新咽喉。
未來 12 個月觀測重點:OCI-MSA 第一代規格書的具體數據與相關矽光子晶片的 Tape-out 消息。




留言