OFC2026 - AI 集群規模化挑戰：Scale-Up 與 Scale-Out 的光電架構演進 - OpenAI / AMD / NVIDIA / Broadcom / TeraHop / Coherent

2天前
讀畢需時 4 分鐘

隨著 AI 工作負載在 2025 年發生結構性轉變，從單純的大模型訓練演進為長上下文、高推理、代理型（Agentic）負載的多樣化場景，底層基礎設施面臨前所未有的挑戰。在今年 OFC 2026 的 Data Center Summit 座談會中，來自 OpenAI、AMD、NVIDIA 等龍頭廠商的專家一致認為：「I/O 頻寬密度」與「功耗」已成為 AI 集群擴張的核心瓶頸。 本文將深入解析各大廠在 Scale-Up（縱向擴展）與 Scale-Out（橫向擴展）網路架構上的技術路徑爭鳴。

核心技術與數據深度解析：六大巨頭的戰略對陣

1. OpenAI：定義 AI 需求與 OCI-MSA 的催生

OpenAI 的 Binbin Guan 指出，2025 年的 AI 需求已不再只是模型大小的故事，推理代幣（Reasoning tokens）增長了 320 倍。

技術立場： 雖然銅纜在 224G/lane 仍是主流，且 448G/lane 被視為「可行但極具挑戰」的路徑，但 OpenAI 呼籲產業必須實現每代 2X 的頻寬密度提升，並將 I/O 功耗壓低至 <2 pJ/bit 。
關鍵行動： OpenAI 聯合創立了 OCI-MSA (Optical Compute Interface)，旨在推動基於開放標準的「光學縱向擴展」架構，讓 Scale-Up 網路能從機架內擴展至多機架（Multi-Rack）。

2. AMD：CPO 是系統級的「協同設計」挑戰

AMD 的 Juthika Basak 強調 CPO (Co-Packaged Optics) 不僅是元件，更是系統賦能。

技術數據： CPO 相較於傳統插拔式模組（>15 pJ/bit），可提供約 3X 的能源效率提升，將功耗降至 ~5 pJ/bit 。
核心觀點： AMD 認為「可靠性、可用性與可服務性 (RAS)」高於一切。針對微環調製器（MRM）的熱漂移問題，AMD 提出必須結合 液冷技術（Liquid Cooling） 與多物理場熱模型進行協同設計。

3. NVIDIA：Blackwell 世代的 AI 工廠規格

NVIDIA 的 Meer Sakib 揭露了 512K Blackwell GPU 集群的恐怖規格。

集群數據： 單一 AI Factory 耗電達 600MW，內部 L1 網路透過 NVLink 連接，單向頻寬達 900GB/s；Scale-Out 則需使用約 1.8M 個光收發模組 。
可靠性優勢： NVIDIA 數據顯示，CPO 方案可提升 3.5X 的能源效率，且具備 10X 的韌性提升，能顯著降低每日因網路失效導致的 300 萬美元損失（以 512K 集群計）。

4. Broadcom：從銅纜極限到 2.6M 小時 MTBF 的可靠性

Broadcom 的 Anand Ramaswamy 對於「光取代銅」的時間點給出了精確預測。

數據錨點： 銅纜（DAC/ACC/AEC）目前守在 <10 pJ/bit 的防線。Broadcom 認為當光學互連總功耗降至 10 pJ/bit 以下 時，光學 Scale-Up 才具備競爭力。
可靠性實證： Broadcom 的 Bailly CPO 系統在 Meta 的實測中，實現了 2.6M 小時的 MTBF (平均失效間隔時間)，這讓 24K GPU 集群的訓練效率能維持在 90% 以上 。

5. TeraHop：12.8T XPO 的量產突破

TeraHop 的 Ryan Yu 展示了產業首款 12.8T XPO (Pluggable Optical Engine) 。

技術規格： 該模組整合了 64 通道的 200G 傳輸，效能等同於 8 個 1.6T OSFP 模組，且模組功耗支援高達 400W 並整合液冷。
供應鏈價值： 其矽光子技術已累積超過 700 億小時 的元件運作時間，PIC FIT 值小於 0.1，展現了極高的良率與可靠性。

6. Coherent：InP 產能與光學電路開關 (OCS)

Coherent 的 Steffen Koehler 提醒業界注意上游材料。

產能預警： 隨著 InP (磷化銦) 在 EML 與 CW 雷射的需求激增，產能將極度吃緊。Coherent 已領先轉向 6 吋 InP 晶圓 生產，目標在 2026-2027 年將產量翻倍。
新工具： OCS 將不再僅限於 Google 的前端網路，將擴散至 AI 資源動態配置、工作流優化等 6 大應用場景。

共識與分歧點分析：路徑之爭

共識：插拔式與 CPO 將長期共存。 雖然 CPO 具備功耗優勢，但插拔式模組在維護彈性與生態系廣度（Ecosystem breadth）上仍具優勢。
分歧一：傳輸策略。 產業分裂為 「Fast and Narrow」（單通道 400G+，依賴外部雷射）與 「Slow and Wide」（如 OCI-MSA 推動的多通道並行，功耗低至 2pJ/bit）兩大派系。
分歧二：雷射架構。 究竟該使用整合在模組內的雷射，還是推動 ELSFP 外部光源以降低故障風險與熱負擔，各大廠仍有不同考量。

Simple Tech Trend 觀點：

根據本次會議披露的數據與進程，

矽光子 (SiPh) 的黃金元年： TeraHop 的 12.8T XPO 與 Broadcom 的 CPO 實測數據證明，矽光子已解決了過去被質疑的可靠性問題。2026 年底前，我們將看到大批量的 1.6T/3.2T 矽光方案進入 Pilot run。
液冷成為光通訊的「標配」： 當光引擎功率密度隨著 400G/lane 提升，傳統氣冷已無法滿足 MRM 等熱敏感元件的需求。未來 18 個月，整合液冷底板的光學插拔模組將成為高階交換器的關鍵採購指標。
封裝技術即競爭力： 領先者（如 NVIDIA 與 Broadcom）均強調 Fan-out Wafer-level 封裝與 Co-design。這對台積電（CoWoS/SoIC）等先進封裝供應鏈是長期利好，光電整合將從 PCB 層面全面收縮至封裝基板層面。