NVIDIA OFC 2026：重構 AI 工廠網絡投影片詳解

15分钟前
讀畢需時 4 分鐘

在 OFC 2026 的主題演講中，NVIDIA 副總裁 Alexis Björlin 博士發表了題為「Revolutionizing Networking for AI Factories」的演說，重新定義了光通訊在 AI 時代的角色。Björlin 明確指出，資料中心即是電腦，而網絡則是定義這台電腦的核心。隨著 AI 步入「代理縮放 (Agentic Scaling)」時代，基礎設施的低延遲與高吞吐量已成為智慧轉化為經濟價值的關鍵指標。

1. 願景與工業基礎

AI 工廠即基礎設施：提出核心商業邏輯——推理是工作負載，Token 是新商品，算力即營收 。
多層基礎設施架構：展示了從能源、晶片、基礎設施到模型與應用層的垂直堆疊。AI 不再只是晶片，而是包含數位生物學、機器人與企業代理在內的龐大系統。

2. 四大縮放定律 (Scaling Laws) 的極端需求

算力需求的演進：
- Pre-training scaling：模型規模每年以 10 倍參數速度增長。
- Post-training scaling：透過微調與量化（如 NVFP4）提升智慧。
- Test-time scaling：模型透過「長時間思考」產生更多推理 Token（如 DeepSeek R1）。
- Agentic scaling：進入「AI 與 AI 對話」的新時代，需要低延遲、大上下文窗口與海量內存。
開源模型的追趕：指出開源模型與領先實驗室的差距正在縮小（如 NVIDIA 的 NeMoTron-3 Super），目前前 13 大模型中有 9 個是開源的。

3. 訓練可靠性的經濟成本

可靠性即生命線：以 Meta Llama 3 405B 為例，16,000 顆 GPU 訓練 54 天發生了 466 次作業中斷，其中 78% 歸因於硬體問題。即使是單個連結效能下降，也會拖累全系統吞吐量。
停機代價的量化：
- 營運成本約為每 GPU 每小時 3.4 美元 。
- 對於 51.2 萬顆 GPU 的集群，10% 的停機時間意味著每天損失 410 萬美元 。

4. 推理工作負載的革命性轉型

從節點級到資料中心級：2024 年推理被認為是單節點任務，但 2026 年已演變為全資料中心規模，算力需求比 ChatGPT 時代增長了 10,000 倍。

混合專家模型 (MoE) 的衝擊：MoE 架構將專家分佈在多個節點上（如 DeepSeek R1 每層有 256 個專家），這產生了頻繁的 All-to-All 全對全通訊，對網絡帶寬與延遲提出了前所未有的要求。

解構推理 (Disaggregated Inference)：將推理分為 Prefill (預填，計算密集型) 與 Decode (解碼，內存密集型)，透過動態分配計算池來極大化吞吐量。

5. 極致協同設計與效能倍增 (Page 13-15)

Token 成本的革命：Blackwell 平台透過協同設計實現了比競爭對手高 50 倍的效能/功耗比，並降低了 35 倍的 Token 成本。

混合架構設計：展示 NVIDIA Dynamo 技術，將處理器 (Vera Rubin NVL72) 與低延遲處理器 (Groq 3 LPX) 結合，透過 Spectrum-6 交換機實現高效互連。

經濟效益：Rubin + LPX 架構預計將開啟一個價值 3000 億美元 的營收機會。

6. 思考型 AI 與代理人的崛起 (Page 16-18)

推理模式的改變：推理模型需要多輪思考 (Multi-turn thinking)，這導致每年的 Token 產生量增長 5 倍。
代理人 (Agents) 的爆發：OpenClaw 等代理人專案的 GitHub 星數增長速度超越 Linux 。從「聊天」到「思考」再到「行動」，每個轉折點都對算力提出了 100 倍 的新增需求。

7. 光學技術在 Scale-up 中的角色

AI 工廠的全棧縮放：展示從晶片、系統軟體到模型與 Context 存儲的全面擴展。
NVL576 與光學連線：
- 下一代系統將大量採用光學技術進行 Scale-up (機架間互連) 。
- 一個 51.2 萬顆 GPU 的集群需要超過 120 萬個光學收發器，光學系統本身功耗就達 30MW（佔集群總功耗約 7%）。
量產速度的壓縮：1.6T 模組的量產速度將遠快於前幾代技術。

8. NVIDIA Photonics：矽光子與 CPO 核心

整合矽光子平台：
- 展示了基於 TSMC CoWoS 3D 堆疊製程 的 1.6T 矽光子 CPO 晶片。
- 包含微環調製器 (MRM)、外置雷射源 (ELS) 與可拆卸式纖維連接器。

微環調製器 (MRM) 的優勢：
- MRM 體積極小（微米級）且功耗極低。
- 在單通道 212.5 Gbps 下實現了低於 1E-10 的誤碼率 (BER) 。
- 溫度穩定性：成功克服 MRM 的溫度敏感痛點，在 50°C 劇烈溫差下依然保持鎖定。
未來前沿——DWDM：NVIDIA 認為密集波分複用 (DWDM) 是下一個擴展疆界。透過 8 個波長的微環諧振器（每波 50G），實現單根光纖 400G 的超高密度，目標能效為 3 pJ/bit 。

平台路線圖：從 2024 年的 Blackwell，演進到 2026 年的 Rubin 與 2028 年的 Feynman，每代都將 CPO 帶寬翻倍。

NVIDIA 正以「光」為中心重寫規則

光通訊下沉至機架內部：NVIDIA 的 NVL576 系統證明，光學技術已不再只是解決「公里的距離」，而是開始解決「公分的連接」。當機架內部的互連也需要 CPO 時，光通訊廠商的角色將從「零件供應商」變成「系統整合的核心」。
MRM 成為關鍵變量：NVIDIA 押注微環調製器 (MRM) 而非馬赫-曾德爾調製器 (MZM)，關鍵在於空間效率與能效。如果 NVIDIA 的溫度穩定算法能大規模驗證，這將徹底改變矽光子的技術路徑競爭。
推理網絡的營收增長點：以往市場認為推理模組的需求較低，但 NVIDIA 透過解構預填與解碼過程，創造了大量的高頻寬連線需求。這意味著「推理紅利」對光學產業的推動力可能比「訓練紅利」更持久。