top of page

CPO 終於不再是「狼來了」:從 Nvidia 量產看 Scale-Up 的終局之戰|副標題:TSMC COUPE、調變器之爭與供應鏈重組

前言

CPO (Co-Packaged Optics) 講了十年,終於在 2025 年迎來了它的「iPhone 時刻」。過去,CPO 總被譏為「明年一定發生的技術」,但隨著 Nvidia 正式端出 Quantum-X800 Q3450 CPO 交換器,這不再只是簡報上的願景。STT 必須指出一個反直覺的真相:這一波 CPO 的推動力,表面上是為了省電,但真正的殺手級應用其實是「Scale-Up」的密度解放。 當 NVLink 的銅纜傳輸距離被壓縮到 2 公尺以內,且 SerDes 功耗指數級上升時,光學不再是選項,而是物理極限下的唯一解。這篇文章將拆解 Nvidia 為何選在此時押注 CPO,以及 TSMC COUPE 如何成為這場戰役的軍火庫。


核心洞察 (Key Insights)

1. 技術規格化:Scale-Out 只是練兵,Scale-Up 才是戰場

我們觀察產業數據,發現一個有趣的「期望落差」。市場普遍認為 CPO 是為了拯救 AI Cluster 的總體功耗,但根據 SemiAnalysis 的模型推算,若僅在後端網路 (Scale-Out) 導入 CPO,雖然能節省約 23% 的網路功耗,但對整座 NVL72 叢集的總功耗影響僅約 2-4% 。

這意味著什麼?CPO 在 Scale-Out 階段的導入,更多是為了「練兵」與建立供應鏈信心。 真正的轉折點在於 Scale-Up (機櫃內互連)


現狀 (Copper):NVLink 頻寬雖高 (7.2T/14.4T per GPU),但銅纜物理限制讓連接距離不超過 2 公尺,這將 AI 的「World Size」限制在單一機櫃或雙機櫃內 。

未來 (CPO):CPO 能提供比銅纜高出數倍的頻寬密度 (Bandwidth Density),且不受距離限制。這意味著未來的 GPU 記憶體池化 (Memory Pooling) 與超大規模 GPU 互連,必須依賴 CPO 才能突破物理機櫃的限制 。

2. 封裝技術差異化:TSMC COUPE 定於一尊

在 CPO 的封裝戰場上,Broadcom 過去曾使用 FOWLP (Fan-Out Wafer-Level Packaging),但未來的路徑圖已明顯轉向 TSMC COUPE (Compact Universal Photonic Engine)

這不只是換個名字,而是技術層次的降維打擊:


3D Stacking (SoIC):TSMC COUPE 使用 SoIC-X 技術,將 EIC (電子晶片,如 Driver/TIA,採 N6 製程) 直接 3D 堆疊在 PIC (光子晶片,採 N65 製程) 之上 。

Bumpless (無凸塊):傳統 Bump 連接有寄生電容問題,限制了頻寬。COUPE 實現了無凸塊連接,這對於推動 **200G/lane** 甚至未來的 400G/lane 至關重要,這也是為何 Broadcom 即使有自家封裝經驗,也必須倒向 TSMC 的主因 。

3. 調變器深水區:MRM 的逆襲 vs EAM 的潛力

在光引擎 (Optical Engine) 內部的核心元件——調變器 (Modulator) 上,出現了兩條截然不同的技術路線:

  • Nvidia/TSMC 陣營 (MRM 微環調變器)

    • Nvidia 的 Quantum-X800 CPO 令人驚訝地採用了 200G PAM4 MRM 。

    • STT 觀點:過去業界認為 MRM 對溫度極度敏感 (熱漂移問題),難以量產。但 Nvidia 證明了透過 TSMC 的製程控制與先進的熱補償機制,MRM 的小體積 (比 MZM 小兩個數量級) 與低功耗優勢可以被實現。這是一個工程上的巨大里程碑。

  • Celestial AI 陣營 (EAM 電吸收調變器)

    • Celestial AI 選擇了 EAM,主打 熱穩定性 (Thermal Stability)。EAM 能承受瞬間 35°C 的溫差而不需複雜的校準,這對於要放在高熱 GPU 旁的 Scale-Up 應用來說,是一個極具吸引力的特性 。

產業連鎖反應 (Chain Reaction)

1. 供應鏈重組:從「光模組廠」到「封裝整合」

CPO 的出現正在重塑傳統光通訊供應鏈的價值分配:

輸家?:傳統 DSP 供應商與純組裝的光模組廠 (Transceiver Vendors) 面臨價值被稀釋的風險。因為 DSP 被拿掉了 ,且光引擎是在晶圓層級就封裝好的。

新角色:傳統模組廠 (如 Innolight, Coherent) 正轉型為 CPO 整合商 或 ELS (外部光源) 供應商。由於雷射 (Laser) 是最容易失效的元件,Nvidia 的架構堅持採用 可插拔的外部光源 (ELS),這保留了模組廠的生存空間 。

2. 競爭對手動態


Broadcom:作為 CPO 先行者,擁有 Humboldt 與 Bailly 兩代產品,但正將重心轉向 TSMC COUPE 平台,這顯示出生態系正在收斂 。
Intel:雖然有不錯的矽光子技術 (OCI),但其整合路徑相對封閉。

Celestial AI:值得關注的黑馬。Marvell 已透過收購/投資介入,其 Photonic Fabric 瞄準的是記憶體與運算單元的解耦合 (Disaggregation),這可能是 AWS Trainium 4 等下一代 ASIC 的秘密武器 。

Simple Tech Trend 的總結 (Conclusion)

我們認為,2025 年 Nvidia CPO 交換器的推出,其象徵意義大於實質的總體節能意義。這不是一個為了「省一點電」的過渡方案,而是為了 Feynman 與 Rubin Ultra 世代 做準備的基礎建設。


結論:Scale-Out CPO (如 Quantum-X800) 是前哨戰,目的是打通供應鏈、驗證可靠度 (Meta 數據顯示 CPO MTBF 是可插拔模組的 5 倍 )。真正的終局之戰在 Scale-Up,屆時銅纜將徹底退場,光學將直接貼合在 GPU 旁 (Optical Interposer)。
  • 觀察指標 (未來 6-12 個月)

    1. ELS 標準化:各家 ELS 規格是否收斂?這決定了維運成本。

    2. 200G MRM 良率:Nvidia 能否大規模量產 200G MRM 將是檢驗 TSMC SiPh 製程成熟度的關鍵。

    3. Broadcom x OpenAI:觀察 Broadcom 是否將 CPO 導入 OpenAI 的自研晶片,這將是 CPO 進入主流 ASIC 的訊號 。

留言


  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page