OFC2026 - AI 集群規模化挑戰:Scale-Up 與 Scale-Out 的光電架構演進 - OpenAI / AMD / NVIDIA / Broadcom / TeraHop / Coherent
- 2天前
- 讀畢需時 4 分鐘
隨著 AI 工作負載在 2025 年發生結構性轉變,從單純的大模型訓練演進為長上下文、高推理、代理型(Agentic)負載的多樣化場景,底層基礎設施面臨前所未有的挑戰。在今年 OFC 2026 的 Data Center Summit 座談會中,來自 OpenAI、AMD、NVIDIA 等龍頭廠商的專家一致認為:「I/O 頻寬密度」與「功耗」已成為 AI 集群擴張的核心瓶頸。 本文將深入解析各大廠在 Scale-Up(縱向擴展)與 Scale-Out(橫向擴展)網路架構上的技術路徑爭鳴。
核心技術與數據深度解析:六大巨頭的戰略對陣
1. OpenAI:定義 AI 需求與 OCI-MSA 的催生
OpenAI 的 Binbin Guan 指出,2025 年的 AI 需求已不再只是模型大小的故事,推理代幣(Reasoning tokens)增長了 320 倍 。
技術立場: 雖然銅纜在 224G/lane 仍是主流,且 448G/lane 被視為「可行但極具挑戰」的路徑,但 OpenAI 呼籲產業必須實現每代 2X 的頻寬密度提升,並將 I/O 功耗壓低至 <2 pJ/bit 。
關鍵行動: OpenAI 聯合創立了 OCI-MSA (Optical Compute Interface),旨在推動基於開放標準的「光學縱向擴展」架構,讓 Scale-Up 網路能從機架內擴展至多機架(Multi-Rack) 。









2. AMD:CPO 是系統級的「協同設計」挑戰
AMD 的 Juthika Basak 強調 CPO (Co-Packaged Optics) 不僅是元件,更是系統賦能 。
技術數據: CPO 相較於傳統插拔式模組(>15 pJ/bit),可提供約 3X 的能源效率提升,將功耗降至 ~5 pJ/bit 。
核心觀點: AMD 認為「可靠性、可用性與可服務性 (RAS)」高於一切。針對微環調製器(MRM)的熱漂移問題,AMD 提出必須結合 液冷技術(Liquid Cooling) 與多物理場熱模型進行協同設計 。








3. NVIDIA:Blackwell 世代的 AI 工廠規格
NVIDIA 的 Meer Sakib 揭露了 512K Blackwell GPU 集群的恐怖規格 。
集群數據: 單一 AI Factory 耗電達 600MW,內部 L1 網路透過 NVLink 連接,單向頻寬達 900GB/s;Scale-Out 則需使用約 1.8M 個光收發模組 。
可靠性優勢: NVIDIA 數據顯示,CPO 方案可提升 3.5X 的能源效率,且具備 10X 的韌性提升,能顯著降低每日因網路失效導致的 300 萬美元損失(以 512K 集群計) 。







4. Broadcom:從銅纜極限到 2.6M 小時 MTBF 的可靠性
Broadcom 的 Anand Ramaswamy 對於「光取代銅」的時間點給出了精確預測。
數據錨點: 銅纜(DAC/ACC/AEC)目前守在 <10 pJ/bit 的防線。Broadcom 認為當光學互連總功耗降至 10 pJ/bit 以下 時,光學 Scale-Up 才具備競爭力 。
可靠性實證: Broadcom 的 Bailly CPO 系統在 Meta 的實測中,實現了 2.6M 小時的 MTBF (平均失效間隔時間),這讓 24K GPU 集群的訓練效率能維持在 90% 以上 。








5. TeraHop:12.8T XPO 的量產突破
TeraHop 的 Ryan Yu 展示了產業首款 12.8T XPO (Pluggable Optical Engine) 。
技術規格: 該模組整合了 64 通道的 200G 傳輸,效能等同於 8 個 1.6T OSFP 模組,且模組功耗支援高達 400W 並整合液冷 。
供應鏈價值: 其矽光子技術已累積超過 700 億小時 的元件運作時間,PIC FIT 值小於 0.1,展現了極高的良率與可靠性 。










6. Coherent:InP 產能與光學電路開關 (OCS)
Coherent 的 Steffen Koehler 提醒業界注意上游材料。
產能預警: 隨著 InP (磷化銦) 在 EML 與 CW 雷射的需求激增,產能將極度吃緊。Coherent 已領先轉向 6 吋 InP 晶圓 生產,目標在 2026-2027 年將產量翻倍 。
新工具: OCS 將不再僅限於 Google 的前端網路,將擴散至 AI 資源動態配置、工作流優化等 6 大應用場景 。






共識與分歧點分析:路徑之爭
共識:插拔式與 CPO 將長期共存。 雖然 CPO 具備功耗優勢,但插拔式模組在維護彈性與生態系廣度(Ecosystem breadth)上仍具優勢 。
分歧一:傳輸策略。 產業分裂為 「Fast and Narrow」(單通道 400G+,依賴外部雷射)與 「Slow and Wide」(如 OCI-MSA 推動的多通道並行,功耗低至 2pJ/bit)兩大派系 。
分歧二:雷射架構。 究竟該使用整合在模組內的雷射,還是推動 ELSFP 外部光源以降低故障風險與熱負擔,各大廠仍有不同考量 。
Simple Tech Trend 觀點:
根據本次會議披露的數據與進程,
矽光子 (SiPh) 的黃金元年: TeraHop 的 12.8T XPO 與 Broadcom 的 CPO 實測數據證明,矽光子已解決了過去被質疑的可靠性問題。2026 年底前,我們將看到大批量的 1.6T/3.2T 矽光方案進入 Pilot run。
液冷成為光通訊的「標配」: 當光引擎功率密度隨著 400G/lane 提升,傳統氣冷已無法滿足 MRM 等熱敏感元件的需求。未來 18 個月,整合液冷底板的光學插拔模組將成為高階交換器的關鍵採購指標。
封裝技術即競爭力: 領先者(如 NVIDIA 與 Broadcom)均強調 Fan-out Wafer-level 封裝與 Co-design。這對台積電(CoWoS/SoIC)等先進封裝供應鏈是長期利好,光電整合將從 PCB 層面全面收縮至封裝基板層面。




留言