GPU 時代不再獨大?解析 AWS Trainium 4、NVLink Fusion 與下一代 AI 互連標準
- simpletechtrend
- 16false58 GMT+0000 (Coordinated Universal Time)
- 讀畢需時 7 分鐘
1. 前言:AI 時代的算力新戰爭正在開始
過去十年,我們習慣把「AI=GPU」,彷彿訓練大型模型就是 NVIDIA 的專屬領域。
從 GPT-3、Stable Diffusion,到近年的多模態模型與 Agentic AI,NVIDIA 幾乎壟斷了整個算力供應鏈。
但 2025 年開始,局勢不一樣了。
AI 模型越來越巨大、越來越多模態、推論量也因 AI Agent 爆炸式成長,「算力」不再是唯一瓶頸,真正的瓶頸變成了「互連(interconnect)」。
GPU 的 FLOPS 增加很快,但 GPU 之間互連頻寬增加得不夠快,導致大模型訓練與推論效率的成長開始放緩。
而 AWS 在今年推出的 Trainium 4 與 NVLink Fusion,是 AI 加速器發展史的重大轉折:
這是第一次,有非 NVIDIA 的晶片被允許直接接入 NVIDIA 的 NVLink Fabric。
這象徵 AI 不再是單一運算架構,而是多家異質加速器混合共存的時代。
也象徵 GPU 時代的絕對統治力,正在被其他晶片商與雲端公司一點一點打開。
本文將以工程角度、資料中心架構角度,完整拆解:
Trainium 3 → 4 的性能演進
NVLink Fusion 的本質
NeuronLink 的定位
UALink / PCIe / CXL 的角色
互連如何比 GPU 算力更重要
為什麼這將重新定義光通訊與矽光子產業
對台灣供應鏈的深遠影響
這篇文章不只講晶片,而是講 下一代 AI 資料中心的整體架構演進。
2. GPU 變快了,但互連沒有跟上:AI 真正的瓶頸是「連接」
2.1 GPU FLOPS 的暴增 ≠ 訓練速度的暴增
以 NVIDIA GPU 為例:
Hopper → Blackwell → Rubin:FLOPS 每代成長 2–4 倍
HBM 帶寬也同步提高
記憶體容量持續上升
看起來算力很可怕,但為什麼模型訓練時間沒有線性下降?
為什麼模型越大越難訓練?
答案是:
互連(interconnect)*沒跟上。
2.2 大模型訓練靠的是「多 GPU 互傳資料」
大模型訓練不是「一顆 GPU」在跑,是 數百、數千顆 GPU 需要不停交換資料:
All-Reduce:同步梯度
All-Gather:MoE gating
Pipeline Parallel:分層傳輸
Tensor Parallel:矩陣拆分
FSDP / ZeRO:記憶體卸載
這些操作的 bottleneck 90% 在互連,而不是 GPU 本身。
2.3 PCIe 的成長速度遠遠落後 GPU
介面 | 帶寬 | 成長速度 |
PCIe Gen4 → Gen5 | +2× | 每 3 年 |
GPU FLOPS(H100 → B100) | +4×~8× | 每 2 年 |
GPU 數量(cluster) | 往 512–4096 顆發展 | 快速倍增 |
模型規模(GPT-3 → GPT-4) | 175B → ∼1T | 指數成長 |
互連沒有跟上,就算 GPU 再強也沒用。
這是 AWS 為何必須打造 Trainium、NeuronLink,並最終採用 NVLink Fusion 的核心原因。
3. AWS Trainium 的戰略:從 Trainium 3 → Trainium 4 的躍進
AWS 從 2021 年開始打造自家 AI 加速器:Inferentia(推論)與 Trainium(訓練)。
2025 年,Trainium 3 與 Trainium 4 的推出,是 AWS 企圖擺脫 GPU 單一依賴的關鍵。
3.1 Trainium 3:AWS 的第一款 3nm AI 晶片
Trainium 3 是目前正式商用的版本,重點包括:
採用 3nm 製程
單晶片性能大幅提升(訓練 throughput 是上一代的 3×)
能效(performance per watt)提升 40%
配合 Trn3 UltraServer 可整合 144 顆晶片
適用 MoE、多模態、長 context 模型
Trainium 3 的目標並不是要贏過 Blackwell,而是:
用更低成本提供「足夠好」的訓練性能,讓 AWS 資料中心能完全控制供應鏈。
3.2 Trainium 4:真正打開下一代 AI 架構的關鍵
Trainium 4 的提升遠超過傳統意義的「性能」:
FP4 性能預期達到 Trainium 3 的 6×
FP8 性能提升約 3×
記憶體頻寬比前代增加 4×
大量提升互連頻寬、並行度
但最關鍵的亮點是:
3.3 ✨ Trainium 4 支援「NVLink Fusion」
這是 AI 加速器產業多年來未曾發生的事:
NVIDIA 第一次允許非 NVIDIA 晶片接入 NVLink。
Trainium 4 變成:
不是獨立 cluster
不是只能用 NeuronLink
而是可以和 GPU 一起成為一個「Unified GPU-ASIC Fabric」
這讓整個資料中心的設計徹底改變。
4. NVLink Fusion 的革命:第一次讓異質加速器走進 GPU Fabric
要理解 NVLink Fusion 的重要性,先知道原版 NVLink 是什麼。
4.1 NVLink:NVIDIA 過去的封閉高速互連
NVLink 的特性:
超高頻寬(單鏈路即遠高於 PCIe)
超低延遲
支援 Collective Operations
與 CUDA / NCCL 深度整合
過去,只有 NVIDIA 自家的 GPU 可以使用 NVLink。
任何 ASIC 都無法搭配 GPU 訓練大型模型。
4.2 NVLink Fusion:新規格,支援 ASIC + GPU 混合架構
NVLink Fusion 是 2025 年全新推出的開放型 NVLink:
它允許:
GPU ←→ GPU
GPU ←→ ASIC(如 Trainium 4)
ASIC ←→ ASIC(若廠商支援)
這意味著:
Trainium 4 可以像 GPU 一樣直接參與 GPU Fabric。
不是透過 PCIe,也不是走 Ethernet。
是走 NVLink 等級的延遲與帶寬。
4.3 這代表什麼?(技術影響)
✔ GPU + Trainium 可以共同執行 All-Reduce
✔ MoE gating 可以在兩者之間協同分配
✔ 模型參數可以共享
✔ 不需要靠 PCIe 當 bottleneck
✔ 單一訓練 job 可以同時使用兩種加速器
這是史上第一次,各家雲端開始彼此打開晶片互連。
4.4 為什麼 NVIDIA 要這麼做?
原因很務實:
AI 模型太大,單靠 GPU 已經無法滿足 Hyperscaler 的成本需求
Hyperscaler 需要更多「成本更低但夠用」的 ASIC
若不開放 NVLink,雲端廠會建自己的 ASIC 生態
GPU 會逐漸被排除在 AI fabric 之外
NVIDIA 不願讓未來是「ASIC-only」。
所以 NVLink Fusion 是一次「互利策略」:
NVIDIA 保住 GPU 的核心地位
AWS 可以把 Trainium 變成 GPU 的延伸加速器
5. NeuronLink:AWS 原生互連的角色變化
在 Trainium 4 之前,AWS 的互連系統主要是:
PCIe(Host I/O) + NeuronLink(Trainium 互連)
NeuronLink 的特點是:
AWS 專用
比 PCIe 快很多
用於 Trainium ↔ Trainium
支援 distributed training
但它有同樣問題:封閉。
當 AWS 決定支援 NVLink Fusion,NeuronLink 的角色變為:
✔ 「Trainium 內部 cluster」仍使用 NeuronLink
✔ GPU ↔ Trainium 的互連改由 NVLink Fusion
✔ 大規模 fabric 會由 NVSwitch / NVLink 架構主導
NeuronLink 不會消失,但會變成:
僅限於 Trainium cluster 的「局部高速互連」。
6. UALink、PCIe、CXL:互連標準的大戰場
這幾年 AI 互連標準百家爭鳴:
NVIDIA:NVLink / NVLink Fusion
AWS:NeuronLink
AMD:UALink
Intel:CXL / Xe Link
PCI-SIG:PCIe Gen6/Gen7
下面將簡單解釋差異。
6.1 PCIe:萬用 I/O,但不適合大模型訓練
PCIe 的角色:
CPU ↔ 加速器
控制、DMA、資料搬移
缺點:
延遲高
帶寬不足
不支援 collective ops
不能做模型 parallel
結論:
PCIe 對 AI 來說是必需品,但不是高速互連。
6.2 CXL:用於記憶體池化,而不是 AI 訓練
CXL 的強項:
Memory pooling
Host-coherent memory
但:
延遲仍高
不適合大量參數同步
不適合 deep learning distributed training
所以 CXL 的定位是 解決 CPU 伺服器的記憶體問題,而不是 GPU/ASIC 訓練。
6.3 UALink:AMD 牽頭打造的「開放型 AI 互連」
UALink 希望:
讓不同廠商的加速器共享一個 Fabric
對抗 NVIDIA 的封閉 NVLink
建立 open ecosystem
但目前仍在 early stage,能否挑戰 NVLink 仍是未知。
6.4 互連標準比較表
標準 | 主導者 | 用途 | 延遲 | 帶寬 | 封閉程度 |
PCIe | 多廠 | Host I/O | 高 | 中 | 開放 |
CXL | Intel | 記憶體池化 | 高 | 中 | 半開放 |
UALink | AMD | AI Fabric | 中低 | 高 | 開放 |
NeuronLink | AWS | Trainium Fabric | 低 | 高 | 封閉 |
NVLink Fusion | NVIDIA | Heterogeneous Fabric | 最低 | 最高 | 半開放(對 hyperscaler) |
7. 為什麼互連會改變 AI 資料中心?
7.1 模型越大,互連越比 GPU 本身重要
GPT-4、Claude、Gemini、Sora、OpenAI Video Model…
越來越多模型走向:
多模態
長 context(>200k)
Mixture-of-Experts(MoE)
Agentic AI 的高頻推論
每一個都需要極高的 cross-chip bandwidth。
所以未來資料中心的 bottleneck:
❌ 不在 GPU
✔ 在互連(Interconnect)
✔ 甚至在光通訊(Optical I/O)
7.2 Hyperscaler 不可能完全靠 GPU
原因:
成本太高
供應不足
生態太封閉
能耗過高
多模態模型需要不同專用加速器
因此 AWS、Google、Meta、Microsoft 都在做 ASIC。
7.3 NVLink Fusion 讓混合架構變成新主流
以前:
GPU 只能跟 GPU 一起做訓練。
未來:
GPU(通用) + ASIC(專用) + Hybrid Fabric
這將成為新的 supercomputer 標準。
7.4 光通訊需求將加速從 800G → 1.6T → 3.2T
因為:
互連頻寬暴增
GPU cluster 變大
ASIC + GPU 的拓墣更複雜
NVSwitch / UALink / Hybrid Fabric 需要更密集的光連結
所以對供應鏈的影響極大(後面會講)。
8. 下一代資料中心的藍圖:GPU × ASIC × Optical I/O
未來 3–5 年,資料中心架構將從:
GPU 中心 → 互連中心(Fabric-Centric)
這會影響:
晶片架構
Switch ASIC
光模組
矽光子 PIC
先進封裝
冷卻與電力系統
機櫃設計
整個供應鏈
大型模型時代真正的超級電腦是:
一個巨大的光互連布滿的 Fabric,而不是一堆 GPU。
9. 對台灣供應鏈的影響:誰會是最大受益者?
台灣在下一世代 AI 資料中心中,會更加關鍵。
以下是最主要的受益類別。
9.1 光模組廠(800G / 1.6T / 3.2T)— 最大贏家
AWS、NVIDIA、Google、Meta 全部會大量增加:
800G SR8 / DR8
1.6T DR8 / FR4
3.2T(未來)
每一代互連升級,光模組出貨都會是倍數增長。
9.2 矽光子(Silicon Photonics)— 光互連世代的核心技術
未來 CPO / Optical I/O 的主流化,使 SiPh 成為:
光引擎(Optical Engine)
高密度光 I/O
PIC(Photonic IC)
多模態感測
低功耗高速互連
台灣 SiPh 生態系會迎來巨大機會。
9.3 激光(EML / DFB / CW)— 最缺的關鍵元件
AI Server 光模組需求大增 → 激光最短缺
台灣目前供應能力有限,但會是重要戰略位置。
9.4 ABF、陶瓷基板、先進封裝
大量 GPU、ASIC、Switch ASIC 都需要:
更大 Carrier
更高頻寬
更低反射 / 損耗
台灣最擅長 PCB / IC Package Supply Chain。
9.5 GPU Server ODM / 電源 / 冷卻
台廠仍是:
全球伺服器最大代工基地
液冷與 AI 機櫃的技術積累最深
資料中心電力系統最成熟
未來算力增加 10×,冷卻與電源會成為下一波關鍵。
10. 結語:異質加速器時代正式來臨
AI 超級電腦的核心已不再只是 GPU,而是:
GPU × ASIC 的混合算力
NVLink Fusion 等高速互連標準
大規模光通訊與矽光子技術
Fabric-Centric 資料中心架構
由 hyperscaler 主導的異質加速器生態
AWS Trainium 4 + NVLink Fusion 的組合,象徵:
→ AI compute 不再是單一公司的專屬領域
→ 互連比 GPU 本身更重要
→ 資料中心將走向「光互連優先」架構
這也代表:
GPU 時代並沒有結束,但「GPU 只有一種」的時代已經結束。異質加速器才會是下一代 AI 超級電腦的主旋律。


