OFC2026 - 256 Gb/s DWDM Optical I/O in 3D-Stacked EIC/PIC Silicon Photonics Platform - NVIDIA
- 3月19日
- 讀畢需時 3 分鐘
前言:AI 工廠與光通訊的必然交匯
隨著 2026 年 AI 工廠(AI Factory)規模向 512K GPU 叢集與 40 MW 功耗水平邁進 ,傳統電互連與可插拔光模組正逐漸觸碰其物理極限。互連功耗目前已占總系統功耗的 7-8% ,這對於極度渴求算力的 AI 基礎設施而言是巨大的浪費。
在今年的 OFC 2026 上,NVIDIA 揭示了其最新研究成果:256 Gb/s DWDM 光學 I/O。該技術透過 3D 堆疊封裝將電子集成電路(EIC)與光學集成電路(PIC)深度融合,不僅旨在解決「海濱密度(Shoreline Density)」瓶頸,更將功耗壓低至 2.6 pJ/bit 。這標誌著光學互連正式從「插槽式」進入「封裝內(In-package)」的新紀元。
核心技術深度解析:3D 封裝與時鐘轉發架構
1. 3D-Stacked COUPE 平台:7nm 與 65nm 的異質整合
NVIDIA 採用的封裝技術基於 TSMC 的 COUPE (Compact Universal Photonic Engine) 平台 。
異質節點組合:EIC 採用 7nm FinFET CMOS 工藝以發揮高效能邏輯運算;PIC 則採用 65nm SOI 矽光子工藝 。
Cu-Cu Hybrid Bonding (SoIC):捨棄傳統微凸塊(Micro-bumps),改用銅對銅混合鍵合技術(SoIC)進行 Face-to-Face 貼合 。此技術將寄生電容($C_p + C_{ESD}$)大幅降低,直接提升了接收端(RX)的靈敏度,進而使雷射功耗降低 30% 至 40% 。
2. 帶通濾波時鐘轉發(Clock-forwarded with BPF)
傳統的時鐘數據恢復(CDR)電路在高速下功耗極高。NVIDIA 選擇了**時鐘轉發(Clock-forwarded)**架構,以簡化電路並縮小晶片面積 。
挑戰:傳統時鐘轉發會使數據與時鐘通道的非相關抖動(Uncorrelated jitter)加倍疊加,導致性能劣化 。
解法:在時鐘通道引入 帶通濾波器(Bandpass Filter, BPF) 。此機制能在保留時鐘信號的同時,過濾掉頻帶外的非相關噪聲。實驗證明,在 32 Gb/s 速率下,該方案能實現 BER < $10^{-12}$ 的穩定傳輸 。
3. 關鍵數據指標 (Quantitative Benchmark)
根據 NVIDIA 提供的實測數據,該系統在各維度均表現出壓倒性的技術領先:
規格參數 | 實測數值 | 備註 |
單通道速率 | 32 Gb/s | 共 8 Data + 1 Clock 通道 |
總吞吐量 (per fiber) | 256 Gb/s | 使用 DWDM 技術 |
能效比 (Total) | 2.6 pJ/b | 含雷射、電路與加熱器功耗 |
海濱帶寬密度 | 6x 提升 | 相較於嵌入式時鐘架構 |
面積帶寬密度 | 1.33 Tb/s/mm² | 高達 20x 的密度提升 |
功耗結構拆解 (2.59 pJ/b Total) :
TX 電路與熱控制:0.67 pJ/b
RX 電路與時鐘網絡:0.59 pJ/b
微環加熱器 (Heater):0.57 pJ/b
雷射源 (DFB Module):0.76 pJ/b (10.2% 效率)
產業鏈與市場影響分析:矽光子的「黃金十年」
NVIDIA 此次展示的不僅是實驗室原型,更是一套成熟的 DWDM 微環諧振器(Micro-ring Resonator, MRR) 解決方案 。這對於產業鏈有以下三大深遠影響:
封裝供應鏈的權力轉移:隨著 COUPE 與 SoIC 技術成為光通訊的核心,台積電(TSMC)在光通訊領域的角色將從「晶圓代工」擴展至「光電集成封裝門戶」,這將對傳統光模組封裝廠構成技術壁壘。
雷射源的獨立化與標準化:NVIDIA 方案中雷射源與 SPE (Silicon Photonic Engine) 是分離的 ,這利於雷射源的散熱管理與更換,也為如 Lumentum 或 Coherent 等雷射晶片商提供了新的外部光源(ELS)市場標準。
零 DSP 時代的先聲:透過時鐘轉發與模擬前端(AFE)優化,NVIDIA 在 32 Gb/s 下實現了極低功耗,這雖然與當前 100G/224G 追求的極致速率路徑不同,但對於「短距、高密度」的 GPU 叢集內部互連,低延遲與低功耗的「Analog-only」路徑可能更具商業優勢。
Simple Tech Trend 觀點:互連即算力
NVIDIA 揭示了一個清晰的戰略——算力的規模化不再僅僅取決於 GPU 內部的電晶體數量,而取決於光子能以多低的成本、多高的密度完成晶片間的通訊。
2.6 pJ/bit 是一個極其強悍的數字。作為對比,目前的電互連在相同長度下的能效約在 1-2 pJ/bit,但光通訊提供了近乎無限的頻寬擴展潛力與數倍的傳輸距離。NVIDIA 選擇 32 Gb/s 進行原型驗證而非追逐 224G PAM4,反映了其優先追求**高能效密度(Performance-per-Watt-per-mm²)**而非單波速率極值的工程哲學。





















留言