top of page

破解 GPU 集群瓶頸:1.6T 時代下的高容量光通訊布局 - Lumentum, VIAVI, AFL & Genuine Optics

  • 42分钟前
  • 讀畢需時 3 分鐘

已更新:1分钟前


隨著 AI 模型訓練速度遠超網路頻寬的成長,光通訊層已成為下一代 GPU 集群效能與營運效率的首要瓶頸 。的這場深度對談中,產業巨頭 Lumentum 與測試領導廠商 VIAVI Solutions,聯合 AFL、Genuine Optics 的專家,共同剖析了邁向 1.6T 乃至 3.2T 時代的技術路徑圖,並指出 AI 算力基礎設施正從「頻寬競速」轉向「密度、功耗與可靠性」的全面博弈 。


核心技術洞察:從單路 400G 到 CPO 實戰路徑

Lumentum:三維度優化 AI 光連網架構

Lumentum 戰略行銷高級總監 Christian Urricariet 明確指出,AI 基礎設施的挑戰不僅在於原始頻寬,更在於能效、reach(傳輸距離)、以及 ASIC 邊界的頻寬密度(Shoreline Density) 。他提出了支撐下一代集群的三大技術支柱:

  1. 磷化銦 (InP) EML 的極限突破: 目前 100G/lane 已大規模部署,200G/lane 正進入初期階段 。Lumentum 已在 OFC 展示 400G/lane 技術,這將是實現單模 3.2T 傳輸速率的關鍵 。

  2. 光路交換 (OCS) 的能效優勢: 為了應對 AI 訓練中相對「確定性」的流量模式,引入基於 MEMS 技術的被動光交換系統,在 Spine 層取代傳統封包交換機,可節省高達 65% 的功耗,並達到極低延遲與協議透明化 。

  3. CPO 與外部光源 (ELS) 布局: 當插拔式模組的功耗與雷射數量成為可靠性隱憂時,共同封裝光學 (CPO) 成為必然選擇 。Lumentum 推崇 ELSFP 形式的外部雷射源,這能將熱源從 ASIC 旁抽離,且具備可插拔的維護便利性(Serviceability) 。

VIAVI Solutions:應對「全纖維化」的生產挑戰

VIAVI 產品總監 Matthew Adams 提出了一個關鍵概念:「Fiber-Wide」 。隨著 CPO 與多路傳輸技術普及,光路徑的數量正呈現幾何級數成長 。

  • 測試密度的 100 倍躍升: 過去 30 年測試設備密度成長了 100 倍,目前 VIAVI 已能在單個 3U 空間內提供近 200 個獨立功率計通道,以應對高吞吐量的生產需求 。

  • 新型纖維的計量難題: 矽光子技術推動了保偏纖維 (PM Fiber) 的復興(主要用於「盒內」互連) 。此外,多芯纖維 (Multi-core) 如何在測試中精準辨識特定纖維芯,以及空心纖維 (Hollow-core) 的熔接損耗,都是製造端的實務考驗 。

專家座談:AI 時代的隱藏挑戰與技術分歧

在由 Fibre Systems 編輯 Keely Portway 主持的 Panel Discussion 中,專家們針對「隱藏瓶頸」與「2030 展望」展開激辯 :

各廠觀點盤點

  • Genuine Optics (David Huff): 強調可靠性成本。他指出,一個 512K 規模的 GPU 集群,若因光通訊故障導致 10% 停機,每日損失高達 300 萬美元 。因此,矽光子的 FIT (Failure in Time) 必須壓低至 1 以下 。

  • AFL (Ted Lichoulas): 關注連接器受損風險。隨著纖維數量激增,傳統清潔與維護變得極其困難。他看好「擴展束 (Expanded Beam)」技術在資料中心的應用,以減少灰塵對高密度連接器的影響 。

  • Lumentum (Christian Urricariet): 預測 相干技術 (Coherent) 將於 2030 年左右開始滲透進資料中心內部,解決 400G/lane 之後的訊號完整性問題 。

關鍵共識與分歧點

共識:ASIC 邊界的**頻寬密度**已達極限,傳統插拔式模組在 1.6T 之後將面臨嚴峻的物理空間挑戰 。CPO 不再是選項,而是時間問題 。
分歧:關於插拔式模組的壽命,Christian 認為插拔式模組因其靈活的供應鏈模式,仍會長期與 CPO 並行 ;而 David Huff 則預測,為了極致功耗管理,2030 年後 DSP 可能會被大量移除,轉向更線性的驅動架構 (Linear Drive) 。

Simple Tech Trend 觀點:AI 網路的「確定性」革命

這場會議傳遞了一個明確訊號:光通訊正從單純的「傳輸元件」演變為「系統設計」的核心。當前產業正處於從傳統乙太網路架構向「AI 專用織網 (AI Fabric)」轉型的關鍵點。

  1. 可靠性即金錢:過去資料中心容許 Link Flaps(鏈路閃爍),但在同步並行運算的 AI 訓練中,任何一個鏈路抖動都會導致全集群等待 。這將驅動設備供應商從「低價策略」轉向「電信級可靠性」。

  2. CPO 的維護悖論:業界雖一致看好 CPO 的效能,但「一旦損壞就得更換整塊主板」的風險仍是超大規模雲端商的痛點 。這也是為何 Lumentum 強調外部光源 (ELS) 必須可插拔的原因。

展望 2030,我們預期會看到一個「混合互連」的資料中心:短距採用可拆卸式 CPO,長距轉向相干光,而中間層級則由 OCS 被動光交換主導,以達到極致的能效比 。

留言


  • 線程
  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page