top of page

SEMICON2025_Silicon Photonics Summit_NVIDIA

前言

隨著人工智慧(AI)規模持續擴張,資料中心已經從單純伺服器的集合體,轉變為「運算單元」本身。NVIDIA 在 SEMICON 2025 的演講中,強調 網路(Network)就是資料中心的核心:不論是單一伺服器、GPU 叢集,甚至跨資料中心的超級電腦,關鍵都在於如何連接與傳輸。

本次演講深入解析了 Scale-up(內部擴展)、Scale-out(跨伺服器擴展)、Scale-across(跨資料中心擴展) 三大網路架構,以及 InfiniBand、Spectrum-X Ethernet、DPU 與光子引擎(CPO, Co-Packaged Optics) 在 AI 基礎建設中的角色。


內容

1. 資料中心的運算單元轉變

傳統上,運算的核心是 CPU,再進化到 GPU 伺服器。然而,在 AI 時代,整個資料中心就是一台電腦

  • Scale-up:將一個機架內的 GPU ASIC 透過極低延遲的網路互連,讓它們運作如同單一大型 GPU。

  • Scale-out:將數十萬顆 GPU 跨伺服器、跨機架連接,形成 AI 超級電腦。

  • Scale-across:跨資料中心甚至跨城市的連接,讓分散的資源組成一個全球運算網路。

2. Scale-up 與 Scale-out 的基礎技術

  1. InfiniBand

    • 仍是業界公認的低延遲、高效能互連標準。

    • 適合大規模 AI 訓練與推論。

  2. Spectrum-X Ethernet

    • NVIDIA 為分散式 AI 運算設計的第一款專用乙太網路。

    • 與傳統 Ethernet 不同,具備 低延遲、零抖動(zero jitter)、高可靠性 特性。

    • 搭配 智慧型 NIC(SuperNIC)分散式交換器,能同時做到:

      • 動態流量控制(避免壅塞)

      • 封包排序(保持資料一致性)

  3. DPU(Data Processing Unit)

    • 位於資料中心的「南北向流量」關口。

    • 功能:

      • 安全隔離:將基礎設施管理與應用運算分離。

      • 儲存整合:提供高效能存取與管理能力。

3. Scale-across:跨資料中心互連

隨著 AI 模型規模持續擴張,單一資料中心已不足以承載,必須將 跨城市、跨國 的資料中心串聯成一個超級電腦。

  • 挑戰:距離增加導致延遲,傳統的 深度緩衝(deep buffer)交換器 雖能吸收壅塞,但會產生額外延遲與效能下降。

  • 解法:NVIDIA 的 距離感知(distance-aware)演算法,透過分散式排程與即時監測,避免壅塞並維持效能。

  • 成果:在長距離跨資料中心連線中,實測達到 接近 2 倍的效能提升

4. 光學引擎與 CPO 的角色

隨著 GPU 數量與頻寬需求爆炸性成長,傳統電訊號傳輸能效不足。NVIDIA 的解決方案是:

  • CPO(Co-Packaged Optics, 光電共封裝):將光學引擎直接整合到交換器封裝中,減少訊號傳輸距離,降低能耗。

  • 技術亮點

    • 導入微型光引擎(micro-involved engines),支援未來世代的高頻寬需求。

    • 創新封裝方式,確保可靠性與良率。

    • 實測結果:在相同功耗下,能支援更大規模的 GPU 連接。

5. 未來展望

NVIDIA 強調下一代資料中心將具備:

  1. 大規模 GPU 整合:單一工作負載可跨數十萬 GPU 執行。

  2. 最佳化的網路分層:交換器負責流量分配,NIC 負責排序與壅塞控制。

  3. 更節能的光學解決方案:CPO 與進階封裝將持續提升效能與能效比。

  4. 真正的全球超級電腦:透過 Scale-across 技術,將不同城市、國家的資料中心連成一體。


總結

NVIDIA 在 SEMICON 2025 的演講中,清楚展現了其在 AI 資料中心網路基礎建設 上的完整藍圖。從 Scale-up(機架內 GPU 整合)Scale-out(跨伺服器擴展)Scale-across(跨資料中心整合),NVIDIA 的方案涵蓋了所有層級,並透過 InfiniBand、Spectrum-X Ethernet、DPU 與 CPO 技術,打造下一代的 AI 超級電腦。

未來,隨著 AI 模型與運算需求持續增長,網路效能與能效 將成為核心競爭力。NVIDIA 的策略不僅僅是推出單一產品,而是構建一個完整的 分散式運算宇宙(computing universe),讓全球資料中心真正融合成一台「巨型 AI 電腦」。

最新文章

查看全部
SEMICON2025_Silicon Photonics Summit_TSMC

前言 隨著人工智慧(AI)、雲端運算與高效能計算(HPC)的快速發展,資料中心對於頻寬與能效的需求急速上升。傳統電子訊號傳輸(electrical interconnect)逐漸遇到瓶頸,不論是在速度、能耗,或是面積利用率上,都難以持續支撐規模化的資料流量。 在 ...

 
 
 
OCP2025 APAC Summit 技術與產業總觀察

摘要 在  OCP2025 APAC Summit ,來自  Meta、Broadcom、Astera Labs、TSMC、ASE、UALink Consortium、Digitimes  等頂尖廠商的代表,針對 AI 時代資料中心與高效運算的架構轉型、開放標準、互連技術、...

 
 
 

留言


  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page