top of page

NVIDIA Presentation at OFC2025: Large Scale AI Systems With Photonic Connectivity

Content:

Large scale AI systems are highly optimized and specialized for characteristics of their workloads. The linkage from the AI workloads down to photonic interconnect is not readily apparent but is currently summarized as "use copper where you can, optical where you must". We explore how other attributes such as latency, channel error rates, packaging and power might cause increased photonic adoption.


Presenter: Larry Dennison, NVIDIA Corp.


🧠 AI 計算的演進與需求

  • 大型基礎模型(Foundation Models):如 GPT++、O1 類型模型,不僅需要龐大的運算資源來訓練,也需要高效能的推論架構。

  • 測試時運算(Test-Time Compute):推論階段需強化平行處理能力,從 8-Way Tensor 並行到 576 GPU,導致對網路通訊延遲與頻寬需求大幅提升。

  • 推論變複雜:LLM 推論已從過去幾個 GPU 增加到幾十甚至幾百個 GPU 並行,推論效能不再僅是單卡問題。


🔗 Photonic Connectivity(光子互連)的角色

  • 導入 Silicon Photonics 原因

    • 電能效率提升約 3.5 倍

    • 網路 resiliency 提升約 10 倍

    • 延遲更低、封包錯誤率(BER)下降

  • 主要技術推進

    • 開發 1.6T 光引擎(Optical Engine)

    • 採用 stacked PIC(光子積體電路)與完整封裝解決方案(含雷射、光纖接口等)

    • 最早將用於 NVIDIA 的交換器


🕸 系統架構挑戰與調整

  • 通訊延遲成為關鍵瓶頸:尤其在 3D slicing 等高維度 GPU 拆分策略中,無法再完全隱藏通訊延遲。

  • 必須提升交換速率(Switching Rate):犧牲部分 port 帶寬以降低 latency 是必要選擇。

  • I/O 密度挑戰:尋求更高的封裝整合度與 die-to-die 連接方案。

  • 電信號傳輸極限:Copper(銅)目前仍主力,但 Photonic interconnect 成為不可或缺選項。



📦 系統封裝與部署策略

  • CPO(Co-Packaged Optics):考慮將網路介面與 GPU 同封裝,降低延遲與能耗,但仍需評估可靠性與彈性。

  • 儲存架構演進:因推論需持久化上下文,導入 customized key-value store、persistent KV cache 等技術。

  • 安全性問題:傳統的加密與驗證機制對延遲與功耗有衝擊,光子互連系統需重新設計輕量級認證方案。


🛠 開放的技術探索與實驗

  • 評估各種 photonic 技術,如:

    • 單模光纖(Single-mode)

    • DWDM/CWDM

    • Multi-mode fiber + VCSEL

  • 甚至也考慮 Micro/Nano-photonics 等技術

  • 強調「所有技術選項都在桌面上」,以確保擴展性與可靠性。


🔚 結語與趨勢判斷

  • Photonic interconnect 正在發生:NVIDIA 強調他們不僅在實作,也在驅動整個生態系。

  • Scaling 是核心問題:能夠將數十倍 GPU 高效整合成一體,是未來 AI supercomputing 的關鍵。

  • 電學架構難以承載未來需求,光子技術的導入是邁向 AI 規模化的關鍵一步。






























Comentarios


  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page