top of page

OCP Global Summit 2025_NVIDIA_Shaping the Future of Open Infrastructure for AI

前言

在 OCP Global Summit 2025 上,NVIDIA 分享了他們如何透過開放基礎設施推動 AI 的未來發展。演講中強調,AI 已經進入 Gigascale 時代 —— 全球各地的資料中心以「GW(Gigawatt)」等級建設,從單一晶片、伺服器,到跨資料中心的超級集群,都需要全新的架構與創新。NVIDIA 在這個過程中不僅是 GPU 的提供者,更是完整 AI 基礎設施生態的推動者。


內容

Gigascale AI 時代

NVIDIA 指出,我們正處於前所未有的 AI 擴展期。資料中心動輒以 GW 級能源投入,建設密集度與技術複雜度創下新高。這些基礎設施已不只是運算中心,而是「會自己變聰明」的資產,隨著軟體與模型的迭代,效能與價值不斷提升 OCP Global Summit 2025_Shaping …。


GPU 與資料中心效能提升

以 B200 與 GB200 資料中心為例,NVIDIA 展示了效能的飛躍:

  • 在短短兩個月內,利用 B200 資料中心將 OpenAI 的 GPTOSS 模型效能提升 5 倍,並將 Token 成本從 每百萬 Token 11 美分降到 2 美分OCP Global Summit 2025_Shaping …。

  • 在另一個案例中,GB200 結合 NVL72 架構,在 DeepSeek R1 模型上的效能比 H200 高出 15 倍,直接轉化為營收效益OCP Global Summit 2025_Shaping …。

這些例子說明,硬體效能提升與網路優化不僅是技術突破,更是商業模式的推動力。


下一代架構:Vera Rubin

NVIDIA 公布了即將在 2026 下半年登場的 Vera Rubin 架構

  • 採用 雙晶片設計:CPX 處理器負責上下文處理,搭配 Rubin GPU 提供超過 8 Exaflops 的推理效能。

  • 網路進入 400G Scale-up 時代,總頻寬達 260 TB/s,是 GB200 的兩倍OCP Global Summit 2025_Shaping …。

  • 100% 液冷 OCP MGX 相容設計,延續現有的 45°C 進風溫度規格,降低冷卻基建成本。

  • 新的 500A 液冷匯流排,提升能源效率,並提供更高的韌性與可擴展性。


NVLink Fusion 與多元合作

NVIDIA 推出 NVLink Fusion,讓異質處理器能與 GPU 深度整合:

  • Fujitsu Monaka CPU 已透過 NVLink Fusion 與 GPU 相連。

  • Intel 也將推出支援 NVLink Fusion 的 CPU,進一步擴大生態圈。

  • 其他合作夥伴還包括 Alchip、三星、聯發科等,共同建構開放式異質運算環境OCP Global Summit 2025_Shaping …。


SpectrumX 與跨資料中心互連

隨著 AI 集群規模擴展到 百萬 GPU 等級,Ethernet 與 SpectrumX 成為關鍵:

  • Microsoft 的 Fairwater 超級電腦,已經在 OCP Sonic 架構上使用 SpectrumX。

  • Oracle 的 Stargate 資料中心,則透過 OCP 與 SpectrumX 打造 95% 有效頻寬的互連架構。

  • NVIDIA 宣布 Spectrum XGX,可支援跨資料中心、跨地理位置的 AI 訓練OCP Global Summit 2025_Shaping …。


未來展望:Kyber 架構

2027 下半年,NVIDIA 將推出 Kyber

  • 單一機架可整合 576 顆 GPU

  • 結合 800V DC 電源基礎設施,以應對極端能源密度需求。

  • 這將進一步把 AI 訓練推向超大規模OCP Global Summit 2025_Shaping …。


總結

NVIDIA 在這次演講中清楚傳達一個訊息:AI 基礎設施的演進,不只是 GPU 效能疊加,而是跨晶片、跨資料中心的全棧創新。 從 Vera Rubin 到 Kyber,NVIDIA 正透過 OCP 與產業合作,把 Gigascale AI 的未來基礎設施鋪好。


延伸觀點

  1. 技術影響:Vera Rubin 的雙晶片設計與 400G Scale-up 網路,顯示未來 AI 架構將高度依賴 矽光子互連,才能突破銅線與能耗瓶頸。

  2. 供應鏈觀察:NVLink Fusion 的開放,將影響 CPU 與 GPU 的關係格局,對 Intel、AMD 甚至 ARM 生態都帶來機會。光模組與 SiPh 廠商(如 Broadcom、Marvell、InnoLight)將從 SpectrumX 部署中受惠。

  3. 市場趨勢:隨著 Kyber 機架單櫃 GPU 數量翻倍,AI 資料中心 CAPEX 與能源需求會持續攀升。這將推動 液冷、800V DC 配電、矽光子光互連 成為主流,並帶動產業新一波投資。

最新文章

查看全部
OCP Global Summit 2025_Broadcom_Networking for AI Scaling

前言 在這場 OCP Global Summit 2025 的演講中,Broadcom 聚焦於  AI 擴展時代的網路基礎 。隨著單一公司一次性宣布超過 26 GW 的資料中心計畫,AI 訓練與推論的基礎設施需求已經進入前所未有的規模。Broadcom 提出的核心觀點是: 唯有 Ethernet 能同時支撐 Scale-up、Scale-out 與跨資料中心的 Scale-across 。 內容

 
 
 
OCP Global Summit 2025_Scaling the AI Infrastructure to Data Center Regions_Meta

前言 在這次 OCP Global Summit 2025 上,Meta 分享了他們在 AI 基礎設施擴展上的最新挑戰與解決方案。作為擁有 34 億用戶的平台,Meta 不僅要確保 AI 技術能在廣泛的應用中提供價值,還要處理龐大規模下的基礎設施壓力。從 LLaMA 模型的演進到跨資料中心的巨型集群建設,這場演講完整展現了 AI 時代下基礎設施擴展的難度與創新。 內容 Meta 一開始強調,AI

 
 
 

留言


  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page