NVIDIA 於 ISSCC 2026 投下的矽光子震撼彈：3D 堆疊與低延遲 DWDM 鏈路

2月25日
讀畢需時 3 分鐘

在 AI 模型參數量呈指數成長的今天，GPU 之間的通訊頻寬已成為性能的天花板。在 ISSCC 2026 中，NVIDIA 發表的論文（Paper 23.1）展示了其對次世代互連技術的思考：放棄單波極速的盲目追求，轉而擁抱高密度、低延遲的 3D 矽光子架構。

1. 策略大轉向：為何 32G NRZ 比 224G PAM4 更具優勢？

當前業界普遍朝向 224G 邁進，但 NVIDIA 指出，隨著速率翻倍，接收端的靈敏度會衰減約 4dB，且面臨嚴重的帶寬限制懲罰。

數據速率的代價：傳統高速電學 IO 在 224G 下的原生誤碼率（Raw BER）僅約 1E-4 到 1E-6 必須依賴複雜的 FEC（前向糾錯） 才能達到系統要求，這不可避免地帶來 10ns 的延遲。
DWDM 的逆襲：NVIDIA 採用 DWDM（密集波分復用） 技術，在單根光纖中塞入 8 個 32G NRZ 數據通道。這種做法能維持高達 256 Gbps 的總吞吐量，同時將延遲壓低至 <1ns，且無需複雜的 FEC 或 ML 處理。

2. 核心組件：微環諧振器（Microring Resonator）的極致應用

NVIDIA 選擇 Microring 作為 DWDM 的核心節點。雖然它對製程與溫度極其敏感，但其帶來的技術優勢無可取代：

高選擇性與小體積：具備高波長選擇性（High-Q），能同時充當調變器、複用器與濾波器，且 Footprint 極小，適合由 CMOS 驅動。
串擾與頻譜管理：NVIDIA 透過將 9 個半徑僅 5µm 的微環（8 路數據 + 1 路時鐘）均勻分佈在 1310nm 波段，實現約 200GHz 的通道間距，並精確建模解決側邊（Long Tail）產生的串擾問題。

3. 黑科技：帶通濾波時鐘轉發（Forwarded Clocking w/ BPF）

這是本篇研究最具原創性的部分。傳統 EC（嵌入式時鐘） 架構受限於 CDR 頻寬，容易暴露在抖動（Jitter）風險中。

抖動追蹤與過濾：NVIDIA 採用時鐘轉發（FC）架構，利用 帶通濾波器（BPF） 過濾掉不相關抖動（Uncorrelated Jitter），同時追蹤相關抖動（Correlated Jitter）。
注入鎖定（Injection-Locked）：接收端的所有通道皆能接收轉發時鐘，並透過 ILO（注入鎖定振盪器） 進行二次噪聲濾波，這對於節能且高效的 DWDM 鏈路至關重要。

4. 封裝與集成：3D 堆疊的暴力美學

NVIDIA 將此技術封裝為 「Optics on Interposer」。

混合鍵合（Hybrid Bonding）：將 7nm 的電路晶片（EIC）與 65nm 的矽光晶片（PIC）進行 3D 堆疊，直接配置在 GPU 旁邊的 中介層（Interposer） 上。
效能基準：這種結構實現了驚人的 1.33 Tb/mm^2 面積密度，與傳統方案相比，大幅優化了 GPU 岸邊（Shoreline）的空間利用率，這正是 AI 機櫃規模化互連的關鍵。

結論：NVIDIA 正在定義 AI 互連的標準

這份 ISSCC 2026 的數據顯示，NVIDIA 實測能效僅 2.51-2.59 pJ/bit（包含電路、時鐘與熱調諧），且原生誤碼率低於 1E-11。當業界還在為 224G 的信號完整性頭痛時，NVIDIA 已經展示了如何透過光學 3D 堆疊與時鐘黑科技，在延遲、功耗與密度之間取得完美的平衡。

這不僅是光學通訊的勝利，更是 NVIDIA 垂直整合能力的又一次展現。