top of page

GPU 時代不再獨大?解析 AWS Trainium 4、NVLink Fusion 與下一代 AI 互連標準

  • 作家相片: simpletechtrend
    simpletechtrend
  • 16false58 GMT+0000 (Coordinated Universal Time)
  • 讀畢需時 7 分鐘

1. 前言:AI 時代的算力新戰爭正在開始

過去十年,我們習慣把「AI=GPU」,彷彿訓練大型模型就是 NVIDIA 的專屬領域。

從 GPT-3、Stable Diffusion,到近年的多模態模型與 Agentic AI,NVIDIA 幾乎壟斷了整個算力供應鏈。

但 2025 年開始,局勢不一樣了。

AI 模型越來越巨大、越來越多模態、推論量也因 AI Agent 爆炸式成長,「算力」不再是唯一瓶頸,真正的瓶頸變成了「互連(interconnect)」

GPU 的 FLOPS 增加很快,但 GPU 之間互連頻寬增加得不夠快,導致大模型訓練與推論效率的成長開始放緩。

而 AWS 在今年推出的 Trainium 4 與 NVLink Fusion,是 AI 加速器發展史的重大轉折:

這是第一次,有非 NVIDIA 的晶片被允許直接接入 NVIDIA 的 NVLink Fabric。

這象徵 AI 不再是單一運算架構,而是多家異質加速器混合共存的時代。

也象徵 GPU 時代的絕對統治力,正在被其他晶片商與雲端公司一點一點打開。

本文將以工程角度、資料中心架構角度,完整拆解:

  • Trainium 3 → 4 的性能演進

  • NVLink Fusion 的本質

  • NeuronLink 的定位

  • UALink / PCIe / CXL 的角色

  • 互連如何比 GPU 算力更重要

  • 為什麼這將重新定義光通訊與矽光子產業

  • 對台灣供應鏈的深遠影響

這篇文章不只講晶片,而是講 下一代 AI 資料中心的整體架構演進

2. GPU 變快了,但互連沒有跟上:AI 真正的瓶頸是「連接」


2.1 GPU FLOPS 的暴增 ≠ 訓練速度的暴增

以 NVIDIA GPU 為例:

  • Hopper → Blackwell → Rubin:FLOPS 每代成長 2–4 倍

  • HBM 帶寬也同步提高

  • 記憶體容量持續上升

看起來算力很可怕,但為什麼模型訓練時間沒有線性下降?

為什麼模型越大越難訓練?

答案是:

  • 互連(interconnect)*沒跟上。


2.2 大模型訓練靠的是「多 GPU 互傳資料」

大模型訓練不是「一顆 GPU」在跑,是 數百、數千顆 GPU 需要不停交換資料

  • All-Reduce:同步梯度

  • All-Gather:MoE gating

  • Pipeline Parallel:分層傳輸

  • Tensor Parallel:矩陣拆分

  • FSDP / ZeRO:記憶體卸載

這些操作的 bottleneck 90% 在互連,而不是 GPU 本身


2.3 PCIe 的成長速度遠遠落後 GPU

介面

帶寬

成長速度

PCIe Gen4 → Gen5

+2×

每 3 年

GPU FLOPS(H100 → B100)

+4×~8×

每 2 年

GPU 數量(cluster)

往 512–4096 顆發展

快速倍增

模型規模(GPT-3 → GPT-4)

175B → ∼1T

指數成長

互連沒有跟上,就算 GPU 再強也沒用。

這是 AWS 為何必須打造 Trainium、NeuronLink,並最終採用 NVLink Fusion 的核心原因。


3. AWS Trainium 的戰略:從 Trainium 3 → Trainium 4 的躍進

AWS 從 2021 年開始打造自家 AI 加速器:Inferentia(推論)與 Trainium(訓練)。

2025 年,Trainium 3 與 Trainium 4 的推出,是 AWS 企圖擺脫 GPU 單一依賴的關鍵。


3.1 Trainium 3:AWS 的第一款 3nm AI 晶片

Trainium 3 是目前正式商用的版本,重點包括:

  • 採用 3nm 製程

  • 單晶片性能大幅提升(訓練 throughput 是上一代的 3×)

  • 能效(performance per watt)提升 40%

  • 配合 Trn3 UltraServer 可整合 144 顆晶片

  • 適用 MoE、多模態、長 context 模型

Trainium 3 的目標並不是要贏過 Blackwell,而是:

用更低成本提供「足夠好」的訓練性能,讓 AWS 資料中心能完全控制供應鏈。

3.2 Trainium 4:真正打開下一代 AI 架構的關鍵

Trainium 4 的提升遠超過傳統意義的「性能」:

  • FP4 性能預期達到 Trainium 3 的 

  • FP8 性能提升約 

  • 記憶體頻寬比前代增加 

  • 大量提升互連頻寬、並行度

但最關鍵的亮點是:


3.3 ✨ Trainium 4 支援「NVLink Fusion」

這是 AI 加速器產業多年來未曾發生的事:

NVIDIA 第一次允許非 NVIDIA 晶片接入 NVLink。

Trainium 4 變成:

  • 不是獨立 cluster

  • 不是只能用 NeuronLink

  • 而是可以和 GPU 一起成為一個「Unified GPU-ASIC Fabric」

這讓整個資料中心的設計徹底改變。


4. NVLink Fusion 的革命:第一次讓異質加速器走進 GPU Fabric

要理解 NVLink Fusion 的重要性,先知道原版 NVLink 是什麼。

4.1 NVLink:NVIDIA 過去的封閉高速互連

NVLink 的特性:

  • 超高頻寬(單鏈路即遠高於 PCIe)

  • 超低延遲

  • 支援 Collective Operations

  • 與 CUDA / NCCL 深度整合

過去,只有 NVIDIA 自家的 GPU 可以使用 NVLink。

任何 ASIC 都無法搭配 GPU 訓練大型模型。


4.2 NVLink Fusion:新規格,支援 ASIC + GPU 混合架構

NVLink Fusion 是 2025 年全新推出的開放型 NVLink:

它允許:

  • GPU ←→ GPU

  • GPU ←→ ASIC(如 Trainium 4)

  • ASIC ←→ ASIC(若廠商支援)

這意味著:

Trainium 4 可以像 GPU 一樣直接參與 GPU Fabric。

不是透過 PCIe,也不是走 Ethernet。

是走 NVLink 等級的延遲與帶寬。


4.3 這代表什麼?(技術影響)

✔ GPU + Trainium 可以共同執行 All-Reduce

✔ MoE gating 可以在兩者之間協同分配

✔ 模型參數可以共享

✔ 不需要靠 PCIe 當 bottleneck

✔ 單一訓練 job 可以同時使用兩種加速器

這是史上第一次,各家雲端開始彼此打開晶片互連。


4.4 為什麼 NVIDIA 要這麼做?

原因很務實:

  • AI 模型太大,單靠 GPU 已經無法滿足 Hyperscaler 的成本需求

  • Hyperscaler 需要更多「成本更低但夠用」的 ASIC

  • 若不開放 NVLink,雲端廠會建自己的 ASIC 生態

  • GPU 會逐漸被排除在 AI fabric 之外

NVIDIA 不願讓未來是「ASIC-only」。

所以 NVLink Fusion 是一次「互利策略」:

  • NVIDIA 保住 GPU 的核心地位

  • AWS 可以把 Trainium 變成 GPU 的延伸加速器


5. NeuronLink:AWS 原生互連的角色變化

在 Trainium 4 之前,AWS 的互連系統主要是:

PCIe(Host I/O) + NeuronLink(Trainium 互連)

NeuronLink 的特點是:

  • AWS 專用

  • 比 PCIe 快很多

  • 用於 Trainium ↔ Trainium

  • 支援 distributed training

但它有同樣問題:封閉

當 AWS 決定支援 NVLink Fusion,NeuronLink 的角色變為:

✔ 「Trainium 內部 cluster」仍使用 NeuronLink

✔ GPU ↔ Trainium 的互連改由 NVLink Fusion

✔ 大規模 fabric 會由 NVSwitch / NVLink 架構主導

NeuronLink 不會消失,但會變成:

僅限於 Trainium cluster 的「局部高速互連」。

6. UALink、PCIe、CXL:互連標準的大戰場

這幾年 AI 互連標準百家爭鳴:

  • NVIDIA:NVLink / NVLink Fusion

  • AWS:NeuronLink

  • AMD:UALink

  • Intel:CXL / Xe Link

  • PCI-SIG:PCIe Gen6/Gen7

下面將簡單解釋差異。


6.1 PCIe:萬用 I/O,但不適合大模型訓練

PCIe 的角色:

  • CPU ↔ 加速器

  • 控制、DMA、資料搬移

缺點:

  • 延遲高

  • 帶寬不足

  • 不支援 collective ops

  • 不能做模型 parallel

結論:

PCIe 對 AI 來說是必需品,但不是高速互連。

6.2 CXL:用於記憶體池化,而不是 AI 訓練

CXL 的強項:

  • Memory pooling

  • Host-coherent memory

但:

  • 延遲仍高

  • 不適合大量參數同步

  • 不適合 deep learning distributed training

所以 CXL 的定位是 解決 CPU 伺服器的記憶體問題,而不是 GPU/ASIC 訓練。


6.3 UALink:AMD 牽頭打造的「開放型 AI 互連」

UALink 希望:

  • 讓不同廠商的加速器共享一個 Fabric

  • 對抗 NVIDIA 的封閉 NVLink

  • 建立 open ecosystem

但目前仍在 early stage,能否挑戰 NVLink 仍是未知。


6.4 互連標準比較表

標準

主導者

用途

延遲

帶寬

封閉程度

PCIe

多廠

Host I/O

開放

CXL

Intel

記憶體池化

半開放

UALink

AMD

AI Fabric

中低

開放

NeuronLink

AWS

Trainium Fabric

封閉

NVLink Fusion

NVIDIA

Heterogeneous Fabric

最低

最高

半開放(對 hyperscaler)

7. 為什麼互連會改變 AI 資料中心?

7.1 模型越大,互連越比 GPU 本身重要

GPT-4、Claude、Gemini、Sora、OpenAI Video Model…

越來越多模型走向:

  • 多模態

  • 長 context(>200k)

  • Mixture-of-Experts(MoE)

  • Agentic AI 的高頻推論

每一個都需要極高的 cross-chip bandwidth

所以未來資料中心的 bottleneck:

❌ 不在 GPU

✔ 在互連(Interconnect)

✔ 甚至在光通訊(Optical I/O)


7.2 Hyperscaler 不可能完全靠 GPU

原因:

  • 成本太高

  • 供應不足

  • 生態太封閉

  • 能耗過高

  • 多模態模型需要不同專用加速器

因此 AWS、Google、Meta、Microsoft 都在做 ASIC。


7.3 NVLink Fusion 讓混合架構變成新主流

以前:

GPU 只能跟 GPU 一起做訓練。

未來:

GPU(通用) + ASIC(專用) + Hybrid Fabric

這將成為新的 supercomputer 標準。


7.4 光通訊需求將加速從 800G → 1.6T → 3.2T

因為:

  • 互連頻寬暴增

  • GPU cluster 變大

  • ASIC + GPU 的拓墣更複雜

  • NVSwitch / UALink / Hybrid Fabric 需要更密集的光連結

所以對供應鏈的影響極大(後面會講)。


8. 下一代資料中心的藍圖:GPU × ASIC × Optical I/O

未來 3–5 年,資料中心架構將從:

GPU 中心 → 互連中心(Fabric-Centric)

這會影響:

  • 晶片架構

  • Switch ASIC

  • 光模組

  • 矽光子 PIC

  • 先進封裝

  • 冷卻與電力系統

  • 機櫃設計

  • 整個供應鏈

大型模型時代真正的超級電腦是:

一個巨大的光互連布滿的 Fabric,而不是一堆 GPU。

9. 對台灣供應鏈的影響:誰會是最大受益者?

台灣在下一世代 AI 資料中心中,會更加關鍵。

以下是最主要的受益類別。

9.1 光模組廠(800G / 1.6T / 3.2T)— 最大贏家

AWS、NVIDIA、Google、Meta 全部會大量增加:

  • 800G SR8 / DR8

  • 1.6T DR8 / FR4

  • 3.2T(未來)

每一代互連升級,光模組出貨都會是倍數增長。

9.2 矽光子(Silicon Photonics)— 光互連世代的核心技術

未來 CPO / Optical I/O 的主流化,使 SiPh 成為:

  • 光引擎(Optical Engine)

  • 高密度光 I/O

  • PIC(Photonic IC)

  • 多模態感測

  • 低功耗高速互連

台灣 SiPh 生態系會迎來巨大機會。


9.3 激光(EML / DFB / CW)— 最缺的關鍵元件

AI Server 光模組需求大增 → 激光最短缺

台灣目前供應能力有限,但會是重要戰略位置。


9.4 ABF、陶瓷基板、先進封裝

大量 GPU、ASIC、Switch ASIC 都需要:

  • 更大 Carrier

  • 更高頻寬

  • 更低反射 / 損耗

台灣最擅長 PCB / IC Package Supply Chain。


9.5 GPU Server ODM / 電源 / 冷卻

台廠仍是:

  • 全球伺服器最大代工基地

  • 液冷與 AI 機櫃的技術積累最深

  • 資料中心電力系統最成熟

未來算力增加 10×,冷卻與電源會成為下一波關鍵。


10. 結語:異質加速器時代正式來臨

AI 超級電腦的核心已不再只是 GPU,而是:

  • GPU × ASIC 的混合算力

  • NVLink Fusion 等高速互連標準

  • 大規模光通訊與矽光子技術

  • Fabric-Centric 資料中心架構

  • 由 hyperscaler 主導的異質加速器生態

AWS Trainium 4 + NVLink Fusion 的組合,象徵:

→ AI compute 不再是單一公司的專屬領域

→ 互連比 GPU 本身更重要

→ 資料中心將走向「光互連優先」架構

這也代表:

GPU 時代並沒有結束,但「GPU 只有一種」的時代已經結束。異質加速器才會是下一代 AI 超級電腦的主旋律。

 
 
 

最新文章

查看全部
OCS(Optical Circuit Switching,全光交換):AI 資料中心的下一場光革命

過去兩年,AI 的爆發讓「資料中心的瓶頸」這句話第一次聽起來不再只是老生常談。問題不在 GPU、不在 HBM、不在 PCIe,而是在最底層的那張網: 交換架構(Switching Architecture) 。AI 集群愈做愈大,從原本一個機房塞滿 GPU,變成許多機房串成一座 AI 超級工廠。而每當规模增加 4 倍,網路交換器的布線、耗能與延遲就會以指數方式爆炸。 這讓整個產業都看到同一件事:

 
 
 
  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page