top of page

OCP Global Summit 2025_Astera Labs_Beyond the Spec: What it Takes to Deploy UALink at Rack Scale

前言

在今年的 OCP Global Summit 中,Astera Labs 帶來一場極具戰略意義的分享:如何在實際機架(Rack)層面部署 UALink

這場演講不僅談到協定與晶片層面的發展,更聚焦於「從 IP → 晶片 → 板卡 → 機架 → 軟體管理 → 安全性 → 互通驗證」的全流程實踐。

對 Astera 來說,UALink 不只是一個規格,而是一個完整的 開放 Scale-Up 生態架構

他們強調:「要讓 UALink 成功,不只要有標準,還要有能在實際資料中心運行的系統。


內容

1. 開放協定只是起點:Scale-Up 的挑戰

Astera Labs 的產品總監 Ahmad Desh 表示:

「要建立真正開放、可部署的 Scale-Up 網路,光有規格還不夠。我們需要從協定、硬體到軟體,一步步打通。」

他總結了成功部署 UALink 所需的五大要素:

  1. TCO 與效能最佳化協定:兼顧效能、可靠性與能源效率。

  2. 從元件到機架的可擴展性:確保設計能橫跨晶片、模組、交換機與整機架。

  3. 管理與可觀測性(Manageability & Telemetry):Rack 級監控與動態配置。

  4. 可靠性與安全性(RAZ & Data Privacy):確保多租戶環境的隔離與可修復性。

  5. 生態互通與部署驗證:讓不同廠商晶片與平台能真正互通。


2. UALink 的演進與目標

UALink 聯盟自 2023 年底成立以來,Astera 一直是推動者之一。

在短短一年內:

  • 已完成 UALink 1.0 規格,提供 高頻寬、低延遲、高能效 的傳輸層;

  • 新一代規格正在開發中,將導入 In-Network Compute(網路內運算),提升運算/功耗比(Performance-per-Watt)。

Astera 表示:「UALink 是為 Scale-Up 而生的協定,不只是 PCIe 或 Ethernet 的延伸。

它被設計用來取代專有互連(如 NVLink、Infinity Fabric),成為 GPU、XPU、Switch 之間的開放基礎。


3. 從晶片到機架:UALink 部署架構

Astera 提出了明確的 Rack-Level Deployment Blueprint,包含三個核心層級:

(1) Pod Controller(集群控制器)

  • 位於機架頂部或虛擬化節點中,負責:

    • 自動偵測所有 UALink 元件(XPU、Switch)

    • 分配設備 ID、建立虛擬叢集(vPod)

    • 管理連線拓樸與資源隔離

  • 可整合於既有的 Rack Management Framework,例如 OCP OAI、OpenBMC 或 SONiC。

(2) Node Management Agent(節點代理)

  • 運行於 XPU/GPU 的 BMC 層,

  • 負責節點初始化、vPod 加入與安全隔離。

(3) Switch Management Agent(交換機代理)

  • 運行於 Scale-Up Switch 上,可嵌入在 KAMI 模組或開放式 NOS(如 SONiC)。

  • 透過 SAI(Switch Abstraction Interface) 與 UALink 擴展模組 進行通訊。

這三者共同構成了 UALink 的 分散式控制平面(Distributed Control Plane),讓每個 Rack 能自動發現、配置與管理。


4. 可靠性與 RAZ(Reliability, Availability, Serviceability)

Astera 指出,在 AI 集群中,任何連線中斷都可能造成數小時的訓練重啟,因此 RAZ 是首要考量

UALink 內建以下機制:

  • Link-Level CRC 與 Flow Control:即時偵測與重傳錯誤。

  • Link Retry & Drop Modes:在連線異常時自動隔離鏈路,防止擴散。

  • Error Injection Framework:支援錯誤注入測試與例外模擬。

  • Event Notification Hooks:能即時回報至 Pod Controller 進行重新配置。

這些機制讓 Scale-Up 網路具備「自我修復」的能力。


5. 安全性與多租戶設計

Astera 也強調了 虛擬叢集(vPod) 的安全模型。

在多租戶雲端環境下,不同租戶可能共享同一機架。

UALink 提供:

  • End-to-End 加密 (AES-GCM):由 XPU 發起加密,經過整個 Fabric 保持加密狀態。

  • Integrity Tag (Authentication Tag):確保封包在中途未被篡改。

  • 隔離模式 (Isolation Mode):能在發現異常時自動將鏈路隔離而不中斷整體網路。

這些安全機制讓 UALink 可安全地部署於公有雲資料中心。


6. 互通性與驗證計畫

Astera 強調,真正的開放協定必須能「跨晶片互通」。

為此,UALink 聯盟啟動三階段驗證:

  1. IP 層級模擬:跨公司 FPGA 驗證(Synopsys、Astera、Intel)。

  2. Pre-Silicon 互通測試:使用 Emulation 平台確認協定一致性。

  3. Compliance Program(2026 上線)

    • 任意 XPU 必須能與任意 Switch 互通;

    • 將建立公開 Integrator’s List,確保可替換性。

Astera 表示:「這是保證開放性最重要的一步,不只是寫規格,而是實際證明它能運作。


總結

Astera Labs 在 OCP 2025 的這場演講,讓人清楚看見 UALink 正從紙上規格走向實際部署。

他們正在打造的不只是協定,而是一個能讓任何廠商參與、能在雲端環境中運作的完整生態系。

「開放」的價值在於能部署,而不是能討論。

Astera 透過晶片、板卡、軟體與測試標準的協同發展,

正在把 UALink 從一個「spec」變成一個可運行的 Rack-Level Infrastructure Blueprint


延伸觀點

  1. 技術意涵

    • Astera 扮演的是「生態整合者」角色,從 Retimer、Switch 到軟體堆疊皆有佈局。

    • 他們的設計哲學——從硬體到軟體的一致化可部署性——將成為開放 AI Fabric 的關鍵。

  2. 供應鏈觀察

    • Astera、Synopsys、Intel、Broadcom、AMD 等聯手打造的 UALink 聯盟,正在形成一個對抗專有架構(如 NVLink)的完整價值鏈。

    • 這將為伺服器製造商(如 Supermicro、Dell、HPE)帶來新的「可組合式」架構機會。

  3. 市場趨勢

    • 若 UALink 能在 2026 年達成跨廠商互通與量產,它將重塑 AI Scale-Up 網路生態

    • 屆時,資料中心的互連層可能分化為三個標準化層級:

      • CXL:Chip-Level Coherency

      • UALink:Rack-Level Fabric

      • Ethernet / UEC:Scale-Out & Data Center Networking

最新文章

查看全部
OCP Global Summit 2025_Lotes_Copper Interconnect in 200G Scale-Up Networks

前言 在光互連(Optical Interconnect)逐漸主導 AI 基礎設施討論的時代, Lotes  在 OCP 2025 的分享反而回到了「電」的核心—— 銅互連 (Copper Interconnect) 。 演講者 Raymond Law 強調自己「不是光學人,而是信號完整性工程師」,並希望在這場充滿光模組展示的會議中,提醒大家: 「在 200G 時代,銅線仍然能發揮關鍵作用,甚至在

 
 
 

留言


  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page