OCP Global Summit 2025_Astera Labs_Beyond the Spec: What it Takes to Deploy UALink at Rack Scale
- simpletechtrend
- 11月3日
- 讀畢需時 4 分鐘
前言
在今年的 OCP Global Summit 中,Astera Labs 帶來一場極具戰略意義的分享:如何在實際機架(Rack)層面部署 UALink。
這場演講不僅談到協定與晶片層面的發展,更聚焦於「從 IP → 晶片 → 板卡 → 機架 → 軟體管理 → 安全性 → 互通驗證」的全流程實踐。
對 Astera 來說,UALink 不只是一個規格,而是一個完整的 開放 Scale-Up 生態架構。
他們強調:「要讓 UALink 成功,不只要有標準,還要有能在實際資料中心運行的系統。」
內容
1. 開放協定只是起點:Scale-Up 的挑戰
Astera Labs 的產品總監 Ahmad Desh 表示:
「要建立真正開放、可部署的 Scale-Up 網路,光有規格還不夠。我們需要從協定、硬體到軟體,一步步打通。」
他總結了成功部署 UALink 所需的五大要素:
TCO 與效能最佳化協定:兼顧效能、可靠性與能源效率。
從元件到機架的可擴展性:確保設計能橫跨晶片、模組、交換機與整機架。
管理與可觀測性(Manageability & Telemetry):Rack 級監控與動態配置。
可靠性與安全性(RAZ & Data Privacy):確保多租戶環境的隔離與可修復性。
生態互通與部署驗證:讓不同廠商晶片與平台能真正互通。
2. UALink 的演進與目標
UALink 聯盟自 2023 年底成立以來,Astera 一直是推動者之一。
在短短一年內:
已完成 UALink 1.0 規格,提供 高頻寬、低延遲、高能效 的傳輸層;
新一代規格正在開發中,將導入 In-Network Compute(網路內運算),提升運算/功耗比(Performance-per-Watt)。
Astera 表示:「UALink 是為 Scale-Up 而生的協定,不只是 PCIe 或 Ethernet 的延伸。」
它被設計用來取代專有互連(如 NVLink、Infinity Fabric),成為 GPU、XPU、Switch 之間的開放基礎。
3. 從晶片到機架:UALink 部署架構
Astera 提出了明確的 Rack-Level Deployment Blueprint,包含三個核心層級:
(1) Pod Controller(集群控制器)
位於機架頂部或虛擬化節點中,負責:
自動偵測所有 UALink 元件(XPU、Switch)
分配設備 ID、建立虛擬叢集(vPod)
管理連線拓樸與資源隔離
可整合於既有的 Rack Management Framework,例如 OCP OAI、OpenBMC 或 SONiC。
(2) Node Management Agent(節點代理)
運行於 XPU/GPU 的 BMC 層,
負責節點初始化、vPod 加入與安全隔離。
(3) Switch Management Agent(交換機代理)
運行於 Scale-Up Switch 上,可嵌入在 KAMI 模組或開放式 NOS(如 SONiC)。
透過 SAI(Switch Abstraction Interface) 與 UALink 擴展模組 進行通訊。
這三者共同構成了 UALink 的 分散式控制平面(Distributed Control Plane),讓每個 Rack 能自動發現、配置與管理。
4. 可靠性與 RAZ(Reliability, Availability, Serviceability)
Astera 指出,在 AI 集群中,任何連線中斷都可能造成數小時的訓練重啟,因此 RAZ 是首要考量。
UALink 內建以下機制:
Link-Level CRC 與 Flow Control:即時偵測與重傳錯誤。
Link Retry & Drop Modes:在連線異常時自動隔離鏈路,防止擴散。
Error Injection Framework:支援錯誤注入測試與例外模擬。
Event Notification Hooks:能即時回報至 Pod Controller 進行重新配置。
這些機制讓 Scale-Up 網路具備「自我修復」的能力。
5. 安全性與多租戶設計
Astera 也強調了 虛擬叢集(vPod) 的安全模型。
在多租戶雲端環境下,不同租戶可能共享同一機架。
UALink 提供:
End-to-End 加密 (AES-GCM):由 XPU 發起加密,經過整個 Fabric 保持加密狀態。
Integrity Tag (Authentication Tag):確保封包在中途未被篡改。
隔離模式 (Isolation Mode):能在發現異常時自動將鏈路隔離而不中斷整體網路。
這些安全機制讓 UALink 可安全地部署於公有雲資料中心。
6. 互通性與驗證計畫
Astera 強調,真正的開放協定必須能「跨晶片互通」。
為此,UALink 聯盟啟動三階段驗證:
IP 層級模擬:跨公司 FPGA 驗證(Synopsys、Astera、Intel)。
Pre-Silicon 互通測試:使用 Emulation 平台確認協定一致性。
Compliance Program(2026 上線):
任意 XPU 必須能與任意 Switch 互通;
將建立公開 Integrator’s List,確保可替換性。
Astera 表示:「這是保證開放性最重要的一步,不只是寫規格,而是實際證明它能運作。」
總結
Astera Labs 在 OCP 2025 的這場演講,讓人清楚看見 UALink 正從紙上規格走向實際部署。
他們正在打造的不只是協定,而是一個能讓任何廠商參與、能在雲端環境中運作的完整生態系。
「開放」的價值在於能部署,而不是能討論。
Astera 透過晶片、板卡、軟體與測試標準的協同發展,
正在把 UALink 從一個「spec」變成一個可運行的 Rack-Level Infrastructure Blueprint。
延伸觀點
技術意涵
Astera 扮演的是「生態整合者」角色,從 Retimer、Switch 到軟體堆疊皆有佈局。
他們的設計哲學——從硬體到軟體的一致化可部署性——將成為開放 AI Fabric 的關鍵。
供應鏈觀察
Astera、Synopsys、Intel、Broadcom、AMD 等聯手打造的 UALink 聯盟,正在形成一個對抗專有架構(如 NVLink)的完整價值鏈。
這將為伺服器製造商(如 Supermicro、Dell、HPE)帶來新的「可組合式」架構機會。
市場趨勢
若 UALink 能在 2026 年達成跨廠商互通與量產,它將重塑 AI Scale-Up 網路生態。
屆時,資料中心的互連層可能分化為三個標準化層級:
CXL:Chip-Level Coherency
UALink:Rack-Level Fabric
Ethernet / UEC:Scale-Out & Data Center Networking



留言