top of page

HOT CHIPS 2025: NVIDIA 為什麼必須把光互連做到 Co-Packaged Silicon Photonics Switch

已更新:27分钟前

NVIDIA 面對的問題早已不是單顆晶片效能

在 Hot Chips 2025 的分享中,NVIDIA 很清楚地傳達一個訊息:他們現在解決的問題,不是 GPU 有多快,而是整個 AI 系統能不能有效運作。

  • 單顆 GPU 的算力仍在提升,但系統效能成長開始放緩

  • 大型模型需要數千甚至上萬顆 GPU 協同運算

  • 系統瓶頸逐漸轉移到 GPU 與 GPU 之間的互連

  • 延遲、功耗與可擴展性成為決定性因素

在這樣的背景下,互連不再是配角,而是系統設計的核心。



為什麼傳統 pluggable optics 已經不夠用

Pluggable optics 在過去十多年成功支撐了資料中心的成長,但在超大規模 AI 系統中,其限制開始變得明顯。

  • 光模組位於前面板,電氣走線距離長

  • 高速 SerDes 與重定時電路帶來額外功耗

  • 前面板密度限制了總頻寬擴展

  • 系統延遲與 jitter 難以被精準控制

對 NVIDIA 而言,這些問題在 AI Factory 等級的系統中會被無限放大。


Co-Packaged Optics 為何成為必然選項

NVIDIA 選擇將光學直接與 switch ASIC 共封裝,並不是為了展示技術,而是為了解決系統級瓶頸。

  • 光學 TX/RX 與 switch ASIC 距離大幅縮短

  • 電氣走線長度下降,功耗與訊號損耗同步降低

  • 前面板不再是頻寬擴展的限制因素

  • 系統延遲與行為變得更可預期

Co-Packaged Optics 的價值,不在於單一連線速度,而在於整體系統效率。


為什麼 NVIDIA 特別強調 Silicon Photonics

在 Co-Packaged 架構中,NVIDIA 明確選擇 silicon photonics 作為核心技術,而非其他光學整合方式。

  • Silicon photonics 具備高整合度與可擴展性

  • 可與先進封裝流程深度整合

  • 適合大規模量產與一致性控制

  • 與既有半導體供應鏈相容性高

對 NVIDIA 來說,這不是單純的技術選擇,而是供應鏈與量產可行性的選擇。


為什麼雷射不直接共封裝在 switch 上

一個值得注意的設計選擇是,NVIDIA 並未將雷射直接封裝在 switch ASIC 旁邊。

  • 雷射的可靠性與壽命管理與 ASIC 不同

  • 維修與更換需求與系統可用性高度相關

  • 雷射熱管理與高功耗 ASIC 之間存在衝突

因此 NVIDIA 採取的是外接可更換雷射的架構。

  • 保留系統維護彈性

  • 降低封裝內部熱風險

  • 在可靠性與整合度之間取得平衡

這是一個高度系統導向,而非純技術導向的決策。


Co-Packaged Switch 在 AI Scale-up 中的角色

對 NVIDIA 而言,Co-Packaged Silicon Photonics Switch 並不是取代整個網路架構,而是服務於特定層級。

  • 主要用於 rack-level 與 pod-level 的 Scale-up

  • 支援 GPU-to-GPU 的高頻寬、低延遲互連

  • 減少對多層電氣交換架構的依賴

這讓多顆 GPU 能更接近「單一大型加速器」的運作模式。


Scale-up、Scale-out 與 Scale-across 的清楚分工

在分享中,NVIDIA 清楚區分三種系統擴展方式。

  • Scale-up:在最小物理距離內最大化頻寬與同步性

  • Scale-out:在資料中心內進行彈性擴展

  • Scale-across:跨資料中心與更大地理範圍

Co-Packaged Silicon Photonics 主要服務的是 Scale-up 與部分 Scale-out 場景,而非取代整個網路。


為什麼只有 NVIDIA 能推動這條路線

Co-Packaged Optics 的導入,對大多數系統廠商而言風險極高,但 NVIDIA 具備獨特條件。

  • 同時掌握 GPU、Switch ASIC 與系統設計

  • 能從晶片、封裝到系統進行整體最佳化

  • 有足夠出貨量支撐新技術導入風險

  • 能影響整個生態系的設計方向

這讓 NVIDIA 成為少數能將 CPO 推向實際部署的公司。


Simple Tech and Trend 的觀點

NVIDIA 的分享清楚說明了一件事:光互連已經不是未來研究方向,而是當下系統設計的必要條件。

  • 當系統規模放大到 AI Factory 等級

  • 當互連成為效能、功耗與成本的核心因素

  • Co-Packaged Silicon Photonics 將不再是選項,而是工具

這場 Hot Chips 2025 的演講,象徵著光互連正式進入 AI 系統的主舞台。

最新文章

查看全部
HOT CHIPS 2025: Lightmatter 的 Passage M1000,為什麼 3D Photonic Interposer 是 AI 系統的必然選項

當 AI 系統繼續放大,真正的瓶頸開始出現在封裝層級 隨著 AI 模型規模與系統算力持續擴張,問題早已不只是單顆晶片效能,而是整個系統如何被有效地「組裝」在一起。 單顆 GPU 或 ASIC 無法承載完整模型與資料流 系統效能高度依賴晶片之間的互連頻寬與延遲 封裝不再只是把晶片放在一起,而是系統效能的一部分 傳統封裝與互連方式逐漸接近物理極限 Lightmatter 的核心判斷是,如果 AI 系統

 
 
 
HOT CHIPS 2025: Ayar Labs 的 UCIe Optical I/O Retimer,為 AI Scale-up 打開新的互連層級

AI Scale-up 的本質問題其實是互連,而不是算力 在大型 AI 訓練與推論系統中,效能不再只由單顆 GPU 或 ASIC 決定,而是取決於整個系統是否能像一顆「更大的電腦」那樣協同運作。 模型規模持續擴大,單顆晶片已無法承載完整運算 Scale-up 架構需要讓多顆 GPU 以低延遲、高頻寬方式緊密協作 傳統電氣互連在距離、功耗與頻寬上逐漸碰到極限 Pluggable optics 雖然解

 
 
 
HOT CHIPS 2025: Celestial AI 的 Photonic Fabric Module 如何重新定義 SoC I/O 架構

SoC 面臨的真正瓶頸已不在算力,而在 I/O 過去十多年,半導體產業不斷透過堆疊算力來提升系統效能,這條路在 AI 時代依然成立,但開始出現明顯的結構性限制。 不論是 CPU、GPU 或 AI 加速器,設計核心都是持續增加運算單元、快取容量與內部頻寬 隨著晶片面積放大,運算單元可以向晶片中央擴展,但 I/O 只能配置在晶片邊緣 晶片面積成長速度遠快於周長成長,導致 I/O 資源無法與算力同步擴展

 
 
 

留言


  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page