top of page

OFC 2026 - AI/ML 互連新架構:CPO, NPO 與 OCI-MSA 的大廠博弈 - Oracle, Meta, Microsoft, AMD, Arista

  • 1天前
  • 讀畢需時 4 分鐘

今年 OFC 2026 的 IEEE 專題座談會再次成為全場焦點。隨著 AI 模型從單純的訓練 (Training) 轉向持續性的推理 (Inference) 與自主代理 (AI Agents),運算需求正從 Exascale 邁向 Yottascale (10 million exaflops) 。這場會議不僅定義了下一代 AI 超級集群的物理層架構,更揭示了超大規模數據中心 (Hyperscalers) 在「效能」與「可維護性」之間的劇烈拉鋸。


核心技術觀點:五大巨頭的策略拆解

本次會議由 Oracle、Meta、Microsoft 等終端用戶領銜,與晶片大廠 AMD 及交換器龍頭 Arista 共同探討光學互連的演進路徑。

1. Oracle:可靠性是營收的唯一指標

Oracle OCI 架構師 Mark Filer 指出,OCI 的 AI 集群已從 2020 年的 1.6 萬顆 GPU 成長至 2026 年的 13.1 萬顆 GPU 。


  • 核心痛點:RDMA 傳輸對鏈路抖動極為敏感,在大規模集群下,低機率事件會變成頻繁發生的常態 。


  • CPO 救贖說:Oracle 認為手動插拔模組是主要的失效模式 。CPO 透過高度整合,預計可提升系統 FIT (Failures in Time) 表現,並在 200G/lane 世代節省高達 50% 的功耗 。


  • 技術警戒:Mark 對於「焊死」的 CPO 表示擔憂,認為這會造成供應鏈鎖定及維修半徑 (Blast Radius) 過大 。


2. Meta:光學背板與 Scale-up 領域擴張

Meta 網路架構師 Rob Stone 強調,為了支撐如 Mixture of Experts (MoE) 等複雜模型,Scale-up 域(加速器間互連)必須從單機櫃擴展至多機櫃 。


  • OCI-MSA:Meta 與 AMD 等共同推動 OCI-MSA 協議,採用 50G NRZ 低速並行方案,達成低功耗、低延遲的節點間光學互連 。


  • 光學背板 (OBP):Meta 提出了基於「盲插 (Blind-mate) 非接觸式抗污連接器」的機櫃概念 。這能將系統失效更換時間從數小時縮短至分鐘級別 。

3. Microsoft:數據驅動的技術評選準則

Microsoft 的 Benjamin Foo 給出了極具參考價值的技術對比表,針對 100G SerDes 世代進行量化分析 :


技術路徑

硬體可靠性

功耗預估 (pJ/bit)

觀測性 (Telemetry)

LRO (線性重定時)

已知失效機率,易維修

10–14

具備完整光/電側遙測

LPO (線性驅動)

已知失效機率,易維修

6–8

遙測能力受限

NPO (近封裝光學)

維修半徑大,限制現場維修

3–4

依賴光學遙測

CPO (共封裝光學)

維修半徑大,限制現場維修

2–3

缺乏主機側監控能力


Microsoft 的立場明確:儘管 CPO 功耗最低,但若以犧牲可靠性與遙測能力為代價,微軟寧可選擇功耗略高但生態成熟的方案 。



4. AMD:從 GPU 到光學互連的全面轉向

AMD 的 Shahab Ardalan 指出,AI 推理 Token 需求在過去兩年增長了 100 倍 。


  • 算力密度:AMD 最新發表的 MI350 在相同封裝尺寸下,運算力較 MI300 提升近兩倍,這倒逼互連帶寬必須同步躍升 。


  • OCI-MSA 量產時程:AMD 預計 OCI-MSA 第一代規範將於 2026 年 3 月 確立,推動產業轉向單纖雙向 (Bi-Di) 與波分復用 (WDM) 的標準化路徑 。


5. Arista:Open CPO 的捍衛者

Arista 資深總監 Sunil Priyadarshi 對「焊死方案」提出了最猛烈的抨擊,稱其為對光學特性的「粗暴對待」 。


  • Open CPX MSA:Arista 主張採用 Socketed (插槽式) CPO 。這讓光學引擎能像 CPU 一樣更換,避免因單一通道失效就必須報廢整張高價交換器 ASIC 。


  • 內置雷射 (ILS) 優勢:Arista 認為內置雷射能減少介面耦合損耗,相較於外部雷射 (ELS),不僅節省電力,還能騰出 33% 的面板空間 。


產業鏈觀點:共識與分歧點

共識點:

  1. 224G 臨界點:所有講者均認同 224G/lane 將是 CPO 進入商用試點的關鍵時刻 。


  2. 抗污連接器技術:擴展光束 (Expanded Beam) 連接器被視為解決 CPO 維修災難的必備條件,可減少 20 倍的插拔力並對灰塵免疫 。


分歧點:

  1. 雷射置放位置:外部雷射 (ELS) 易於更換但效率低;內置雷射 (ILS) 效率高但受制於封裝熱效應 。


  2. 封裝形式:Arista 堅持 Socketed 以確保多供應商生態 ;而部分晶片供應商則傾向焊死以極致優化訊號完整性。


Simple Tech Trend 觀點:

從這場 OFC 2026 的巔峰對話中,我們可以看到 AI 光學互連正處於**「從模組化向封裝化過渡的混亂期」**。

  1. OCI-MSA 的殺傷力:AMD 與 Meta 強推的 OCI-MSA 顯示出 Hyperscalers 繞過傳統模組廠,直接定義矽光子晶片規格的野心。這對傳統光收發模組廠商 (如 Coherent, Lumentum) 將產生巨大的去中間化壓力。

  2. 可靠性 (Reliability) 取代功耗成為新神祇:微軟與 Oracle 的發言定調了未來的採購邏輯——如果 CPO 的運作成本 (OpEx) 因高失效率而抵銷了省下的電費 (CapEx),大廠將毫不猶豫地擁抱如 LRO 等過渡方案。

  3. 封裝測試 (OSAT) 地位崛起:當 CPO 與 NPO 成為主流,技術關鍵將從光學設計轉向「複雜封裝良率」。台積電的 COWAS 與矽光子整合平台將成為光通訊產業的新咽喉。

未來 12 個月觀測重點:OCI-MSA 第一代規格書的具體數據與相關矽光子晶片的 Tape-out 消息。

留言


  • 線程
  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page