top of page

Barclays 23rd Annual Global Technology Conference | Credo Technology Group | 從 AEC 到 ZeroFlap:定義 AI Cluster 的絕對可靠性

本次 Barclays 會議邀請到了 Credo (CRDO) 的 CEO Bill Brennan 與 CFO Daniel Fleming。

在這場訪談中,Credo 展現了極強的自信,強調他們不再只是一家「賣線材」的公司,而是提供 System-Level Reliability (系統級可靠度) 的關鍵供應商。從 AEC 的統治地位,延伸到光學模組 (Optics) 與解決 Memory Wall 的新產品,以下是我的重點整理與分析:


1. AI 部署仍在「早期階段」,重點從速度轉向可靠性 (Reliability)

Bill Brennan 直言,AI Infrastructure 絕對還在 "Early Innings"。隨著 GPU Cluster 規模從 1 萬顆走向 10 萬甚至 100 萬顆,連接的邏輯發生了根本性的改變:

  • 單點故障的代價極高: 在這種超大規模 Cluster 中,GPU 到第一層 Switch (T0) 的連接通常沒有 Redundancy (冗餘)。一旦這條線路斷掉 (Link Flap),整個 Training Run 可能中斷,導致數百萬美元的算力與時間損失。

  • ZeroFlap 概念: 這也是為什麼 xAI 和 Oracle 會找上 Credo。因為傳統的光學連接在液冷、高密度的環境下容易不穩定,而銅纜 (Copper) 天生具備高可靠性。Credo 的任務就是透過 AEC 技術,確保這些連接 "ZeroFlap" (零震盪/零斷線)。


2. AEC (Active Electrical Cables):護城河在於「全棧自研」

針對市場上出現競爭對手 (如所謂的 "Golden Cables"),Credo 並不擔心,原因在於商業模式的差異:

  • System Ownership: Credo 不僅僅設計 SerDes 晶片,他們擁有完整的垂直整合能力——從晶片設計、線材製造、測試到品管。

  • 客製化能力: 客戶 (如 Hyperscalers) 需要的不只是標準品,而是針對特定機櫃設計的長度、接頭配置,甚至是外觀顏色 (Purple Cable 的由來)。

  • Moat (護城河): 競爭對手如果只是買晶片來組裝線材,很難達到 Credo 這種經過端到端驗證 (End-to-End Validation) 的可靠度。


3. 進軍光學市場:ZeroFlap Optics (ZF Optics)

這是本次訪談的一大亮點。Credo 正在將 AEC 的成功模式複製到光學領域,推出了 ZF Optics

  • 解決什麼問題? 雖然 AEC 很好,但超過 7 米或更長距離還是需要光。傳統光模組缺乏智慧化的監控。

  • Telemetry (遙測技術): Credo 設計了客製化的 Optical DSP,能夠在傳輸資料的同時,即時監控每一條 Link 的健康狀況 (Signal Integrity, ESD damage, Dust on fiber)。

  • 預防性維護: 在 Link 真正失效之前,系統就能偵測到訊號衰減,並通知管理軟體主動將該 GPU 下線,避免影響整體 Cluster 運作。這是一種從 "Component Vendor" 轉型為 "Solution Provider" 的策略。


4. 突破 Memory Wall:Omni Connect (Weaver)

除了連接 GPU,Credo 也開始解決記憶體頻寬與容量的瓶頸。

  • HBM 的限制: HBM 雖然快,但昂貴且容量有限,且必須緊貼 GPU (物理距離限制約 25mm)。

  • Omni Connect 方案: Credo 利用其低功耗 SerDes 技術,將記憶體控制器 (Weaver) 與 GPU 的距離拉長到 10 英吋 (250mm),同時保持極高的傳輸效率。

  • 應用場景: 這讓客戶可以用成本較低的 DDR 記憶體來替代部分 HBM 需求,特別是在 Inference (推論) 場景 (如 AI Video Generation),模型巨大且需要大容量記憶體時,這是一個極具成本效益的解法。


5. 對 CPO (Co-Packaged Optics) 的看法:言之過早

對於市場熱議的 CPO,Bill Brennan 保持一貫的務實態度:

  • 沒有急迫性: 目前的銅纜 (AEC) 和可插拔光模組 (Pluggable Optics) 在成本、功耗和可靠度上仍然勝過 CPO。

  • 技術路徑: Credo 認為,即便未來真的遇到物理極限,他們正在研發的 ALC (Active Linear Cable) 搭配 Micro LED 技術,會是比 CPO 更低功耗、更低成本的選擇。


結論

Credo 的策略非常清晰:在 AI 時代,連接線不再是標準品 (Commodity),而是決定系統穩定度的核心元件。

無論是透過 AEC 統治短距離連接,還是透過 ZF Optics 智能化長距離傳輸,甚至是用 Omni Connect 解決記憶體牆,Credo 都在利用其 SerDes IP 的優勢,不斷擴大在 Data Center 裡的 TAM (Total Addressable Market)。對於投資人而言,這家公司已經從單純的硬體供應商,進化為 AI 基礎設施的可靠度守門員。

留言


  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page