AI 資料中心的隱形革命:從「快與窄」走向「慢與寬」的互連新趨勢
- simpletechtrend
- 37分钟前
- 讀畢需時 4 分鐘
在 AI 算力呈指數級增長的當下,資料中心面臨著一個嚴峻的物理瓶頸:連接(Interconnect)。隨著 GPU 叢集規模擴大,傳統銅線(Copper)在頻寬密度與能耗上已逐漸逼近極限。為了滿足 AI 訓練對海量數據交換的需求,光學互連技術(Optics)正在經歷一場從「可插拔模組」到「共封裝光學(CPO)」的典範轉移。
本文將基於 M. Kohli 與 J. Teissier 所發表的最新研究論文 《VCSEL-based CPO for Scale-Up in A.I. Datacenter – Status and Perspectives》 ,透過其研究數據與觀點,深入解析為何 基於 VCSEL 的「慢與寬(Slow-and-Wide)」架構,極有可能是解決 AI Scale-Up 網路(短距離互連)的最佳方案。
核心概念:為什麼我們需要 CPO?
圖表詳解:Figure 1 - 未來的連接架構

【圖表解析】這張概念圖展示了 UCIe 相容的 VCSEL 陣列連結 架構 。
左側 (XPU/UCIe): AI 處理器(XPU)透過 UCIe 標準介面發送訊號 。
右側 (Optical Engine): 訊號進入電子積體電路(EIC),直接驅動上方的垂直共振腔面射型雷射(VCSEL)陣列 。光訊號隨後垂直射入透鏡與多芯光纖(Multicore fibers)中 。
技術意涵:
整合度提升: 光引擎不再是外部獨立模組,而是透過矽中介層(Interposer)與處理器緊密整合 。
能效優化: 這種設計大幅縮短了電訊號傳輸的路徑,減少了 PCB 板上的傳輸損耗 。
銅線的物理極限與能耗代價
圖表詳解:Figure 2 - 連結損耗與能效成本

【圖表解析】這張圖表量化了傳統「可插拔光模組(Pluggable)」架構的代價 。
電氣損耗(藍線): 訊號從 ASIC 晶片出發,經過 PCB 走線、過孔(Via),最終到達機殼邊緣的插拔模組時,損耗高達 22 dB 。
能效代價(紅線): 為了補償這些損耗並修正訊號,系統需要消耗大量電力。僅是為了把資料「搬運」到光模組,每位元(bit)就需消耗約 3.5 pJ 。若算上模組內的 DSP(數位訊號處理),總能耗高達 13.5 pJ/bit 。
技術意涵: 銅線在高頻下的損耗迫使我們使用高耗能的 DSP。若能透過 CPO 移除這段銅線傳輸,就能省下這筆巨大的「過路費」。
技術路線大對決:誰是能效之王?
圖表詳解:Figure 3 - 各大技術能效比拼

【圖表解析】這張長條圖比較了不同 CPO 技術方案的預估總能效(數值越低越好)。
綠色 (VCSEL): 表現最優。特別是採用「慢與寬」策略的 32 Gbit/s VCSEL 陣列,預估總能效僅需 0.75 pJ/bit 。即使是高速版 (108 Gbit/s),能效也極具競爭力 。
藍色 (MicroLED): 雖然理論上 MicroLED 很省電,但因發光效率低(Wall-plug efficiency < 2%)且光纖耦合困難,實際系統能效約在 3.6 - 7 pJ/bit 。
紫色 (SiPho 矽光子): 目前主流的 Broadcom/Nvidia 方案(200G SiPho),能效約在 5 - 8 pJ/bit 。
技術意涵: 在短距離(Scale-Up)傳輸中,結構簡單、無需額外雷射光源的 VCSEL,展現了比矽光子更優異的能效優勢 。
訊號品質:告別 DSP 的可能性
圖表詳解:Figure 4 - 眼圖與訊號完整性

【圖表解析】眼圖(Eye Diagram)是判斷數位訊號品質的關鍵指標 。
(a) Good Channel: 線條清晰,「眼睛」張開,代表訊號品質極佳,無需複雜修正 。
(b) Lossy Channel: 訊號因傳輸損耗而衰減,眼睛閉合,通常需要 DSP 介入 。
(c) Impaired Channel: 訊號受到色散或頻寬限制而扭曲 。
技術意涵: 「慢與寬(WaS)」架構透過降低單通道速率,讓物理層訊號保持在接近 (a) 的狀態。這意味著可以移除耗電且增加延遲的 DSP 電路,回歸更純粹的類比驅動 。
可靠度:AI 訓練的生命線
圖表詳解:Figure 5 - 備援機制與容錯率

【圖表解析】AI 訓練極度敏感,任何連結中斷都可能導致高昂的重新訓練成本 。
(a) 故障率曲線: 顯示了 VCSEL 陣列故障率(FIT Rate)與備用通道(Spares)數量的關係 。只要增加 15% 的備用通道,整體連結的可靠度就能大幅提升,故障率降至極低 。
(b) 2D 陣列修復示意圖: 展示了陣列中的容錯機制。當某個連結失效(紅色格)時,系統可以利用旁邊的備用連結(藍色格)進行「熱交換(Hot-swap)」,維持整體頻寬不變 。
技術意涵: 這種利用空間冗餘(Spatial Redundancy)來換取可靠度的能力,是傳統單一光源矽光子方案難以複製的優勢,能有效減少 AI 訓練中斷的風險 。
總結:關鍵指標一覽
表格詳解:Table 1 - 技術規格總結

【表格解析】這張表格總結了各技術在 3.2T 頻寬下的關鍵指標 。
能效 (Energy Efficiency): VCSEL (32 Gb/s Array) 以 <0.75 pJ/bit 奪冠,遠低於 SiPho 的 ~5 pJ/bit 。
延遲 (Latency): VCSEL 方案因無需 DSP 和複雜的錯誤更正碼(FEC),具備低延遲特性 。
複雜度: VCSEL 是直接調變光源,不像 SiPho 需要外部雷射和環形調變器,也不像 MicroLED 面臨光纖耦合挑戰 。
Simple Tech Trend 觀點
這份研究揭示了一個反直覺的趨勢:在 AI 機櫃內部的短距離互連中,「越快」不一定「越好」。
透過 「慢與寬(Slow-and-Wide)」 的策略——即降低單通道速率但大幅增加通道數量——配合 VCSEL 技術,我們可以在不犧牲總頻寬的前提下,顯著降低功耗並提升可靠度。對於正在尋求突破摩爾定律限制的 AI 硬體架構師而言,VCSEL CPO 提供了一條極具潛力的綠色運算路徑。



