NVIDIA 於 ISSCC 2026 投下的矽光子震撼彈:3D 堆疊與低延遲 DWDM 鏈路
- 2月25日
- 讀畢需時 3 分鐘
在 AI 模型參數量呈指數成長的今天,GPU 之間的通訊頻寬已成為性能的天花板。在 ISSCC 2026 中,NVIDIA 發表的論文(Paper 23.1)展示了其對次世代互連技術的思考:放棄單波極速的盲目追求,轉而擁抱高密度、低延遲的 3D 矽光子架構。
1. 策略大轉向:為何 32G NRZ 比 224G PAM4 更具優勢?
當前業界普遍朝向 224G 邁進,但 NVIDIA 指出,隨著速率翻倍,接收端的靈敏度會衰減約 4dB,且面臨嚴重的帶寬限制懲罰。
數據速率的代價:傳統高速電學 IO 在 224G 下的原生誤碼率(Raw BER)僅約 1E-4 到 1E-6 必須依賴複雜的 FEC(前向糾錯) 才能達到系統要求,這不可避免地帶來 10ns 的延遲。

DWDM 的逆襲:NVIDIA 採用 DWDM(密集波分復用) 技術,在單根光纖中塞入 8 個 32G NRZ 數據通道。 這種做法能維持高達 256 Gbps 的總吞吐量,同時將延遲壓低至 <1ns,且無需複雜的 FEC 或 ML 處理。
2. 核心組件:微環諧振器(Microring Resonator)的極致應用
NVIDIA 選擇 Microring 作為 DWDM 的核心節點。 雖然它對製程與溫度極其敏感,但其帶來的技術優勢無可取代:
高選擇性與小體積:具備高波長選擇性(High-Q),能同時充當調變器、複用器與濾波器,且 Footprint 極小,適合由 CMOS 驅動。
串擾與頻譜管理:NVIDIA 透過將 9 個半徑僅 5µm 的微環(8 路數據 + 1 路時鐘)均勻分佈在 1310nm 波段,實現約 200GHz 的通道間距,並精確建模解決側邊(Long Tail)產生的串擾問題。
3. 黑科技:帶通濾波時鐘轉發(Forwarded Clocking w/ BPF)
這是本篇研究最具原創性的部分。傳統 EC(嵌入式時鐘) 架構受限於 CDR 頻寬,容易暴露在抖動(Jitter)風險中。
抖動追蹤與過濾:NVIDIA 採用時鐘轉發(FC)架構,利用 帶通濾波器(BPF) 過濾掉不相關抖動(Uncorrelated Jitter),同時追蹤相關抖動(Correlated Jitter)。
注入鎖定(Injection-Locked):接收端的所有通道皆能接收轉發時鐘,並透過 ILO(注入鎖定振盪器) 進行二次噪聲濾波,這對於節能且高效的 DWDM 鏈路至關重要。
4. 封裝與集成:3D 堆疊的暴力美學
NVIDIA 將此技術封裝為 「Optics on Interposer」。
混合鍵合(Hybrid Bonding):將 7nm 的電路晶片(EIC)與 65nm 的矽光晶片(PIC)進行 3D 堆疊,直接配置在 GPU 旁邊的 中介層(Interposer) 上。
效能基準:這種結構實現了驚人的 1.33 Tb/mm^2 面積密度,與傳統方案相比,大幅優化了 GPU 岸邊(Shoreline)的空間利用率,這正是 AI 機櫃規模化互連的關鍵。

結論:NVIDIA 正在定義 AI 互連的標準
這份 ISSCC 2026 的數據顯示,NVIDIA 實測能效僅 2.51-2.59 pJ/bit(包含電路、時鐘與熱調諧),且原生誤碼率低於 1E-11。 當業界還在為 224G 的信號完整性頭痛時,NVIDIA 已經展示了如何透過光學 3D 堆疊與時鐘黑科技,在延遲、功耗與密度之間取得完美的平衡。

這不僅是光學通訊的勝利,更是 NVIDIA 垂直整合能力的又一次展現。


留言