SEMICON2025_Silicon Photonics Summit_NVIDIA
- drshawnchang
- 9月12日
- 讀畢需時 3 分鐘
前言
隨著人工智慧(AI)規模持續擴張,資料中心已經從單純伺服器的集合體,轉變為「運算單元」本身。NVIDIA 在 SEMICON 2025 的演講中,強調 網路(Network)就是資料中心的核心:不論是單一伺服器、GPU 叢集,甚至跨資料中心的超級電腦,關鍵都在於如何連接與傳輸。
本次演講深入解析了 Scale-up(內部擴展)、Scale-out(跨伺服器擴展)、Scale-across(跨資料中心擴展) 三大網路架構,以及 InfiniBand、Spectrum-X Ethernet、DPU 與光子引擎(CPO, Co-Packaged Optics) 在 AI 基礎建設中的角色。
內容
1. 資料中心的運算單元轉變
傳統上,運算的核心是 CPU,再進化到 GPU 伺服器。然而,在 AI 時代,整個資料中心就是一台電腦。
Scale-up:將一個機架內的 GPU ASIC 透過極低延遲的網路互連,讓它們運作如同單一大型 GPU。
Scale-out:將數十萬顆 GPU 跨伺服器、跨機架連接,形成 AI 超級電腦。
Scale-across:跨資料中心甚至跨城市的連接,讓分散的資源組成一個全球運算網路。
2. Scale-up 與 Scale-out 的基礎技術
InfiniBand
仍是業界公認的低延遲、高效能互連標準。
適合大規模 AI 訓練與推論。
Spectrum-X Ethernet
NVIDIA 為分散式 AI 運算設計的第一款專用乙太網路。
與傳統 Ethernet 不同,具備 低延遲、零抖動(zero jitter)、高可靠性 特性。
搭配 智慧型 NIC(SuperNIC) 與 分散式交換器,能同時做到:
動態流量控制(避免壅塞)
封包排序(保持資料一致性)
DPU(Data Processing Unit)
位於資料中心的「南北向流量」關口。
功能:
安全隔離:將基礎設施管理與應用運算分離。
儲存整合:提供高效能存取與管理能力。
3. Scale-across:跨資料中心互連
隨著 AI 模型規模持續擴張,單一資料中心已不足以承載,必須將 跨城市、跨國 的資料中心串聯成一個超級電腦。
挑戰:距離增加導致延遲,傳統的 深度緩衝(deep buffer)交換器 雖能吸收壅塞,但會產生額外延遲與效能下降。
解法:NVIDIA 的 距離感知(distance-aware)演算法,透過分散式排程與即時監測,避免壅塞並維持效能。
成果:在長距離跨資料中心連線中,實測達到 接近 2 倍的效能提升。
4. 光學引擎與 CPO 的角色
隨著 GPU 數量與頻寬需求爆炸性成長,傳統電訊號傳輸能效不足。NVIDIA 的解決方案是:
CPO(Co-Packaged Optics, 光電共封裝):將光學引擎直接整合到交換器封裝中,減少訊號傳輸距離,降低能耗。
技術亮點:
導入微型光引擎(micro-involved engines),支援未來世代的高頻寬需求。
創新封裝方式,確保可靠性與良率。
實測結果:在相同功耗下,能支援更大規模的 GPU 連接。
5. 未來展望
NVIDIA 強調下一代資料中心將具備:
大規模 GPU 整合:單一工作負載可跨數十萬 GPU 執行。
最佳化的網路分層:交換器負責流量分配,NIC 負責排序與壅塞控制。
更節能的光學解決方案:CPO 與進階封裝將持續提升效能與能效比。
真正的全球超級電腦:透過 Scale-across 技術,將不同城市、國家的資料中心連成一體。
總結
NVIDIA 在 SEMICON 2025 的演講中,清楚展現了其在 AI 資料中心網路基礎建設 上的完整藍圖。從 Scale-up(機架內 GPU 整合)、Scale-out(跨伺服器擴展) 到 Scale-across(跨資料中心整合),NVIDIA 的方案涵蓋了所有層級,並透過 InfiniBand、Spectrum-X Ethernet、DPU 與 CPO 技術,打造下一代的 AI 超級電腦。
未來,隨著 AI 模型與運算需求持續增長,網路效能與能效 將成為核心競爭力。NVIDIA 的策略不僅僅是推出單一產品,而是構建一個完整的 分散式運算宇宙(computing universe),讓全球資料中心真正融合成一台「巨型 AI 電腦」。




留言