top of page

OCP Global Summit 2025_Credo_Wired for Success: Enhancing AI Cluster Reliability with Copper Cables

前言

在 OCP Global Summit 2025 上,Credo 帶來了一個看似傳統、卻在 AI 時代重新被重視的主題——銅纜(Copper)在 AI 資料中心的角色回歸

當業界普遍關注光互連(Optical Interconnect)與 CPO 技術時,Credo 以實際部署數據與可靠性分析指出:在 GPU 密集叢集的近距離連接中,銅纜不僅依然可行,甚至是提高可靠度的關鍵選項。


內容

1. AI 時代的網路瓶頸:可靠性比頻寬更重要

隨著 AI 訓練叢集從 16K GPU 進化到 3M GPU、功率超過 5 GW 的規模,網路的可靠性成為系統運行的關鍵因素。

Credo 提出了一個新指標:

MTBF-LF(Mean Time Between Link Flap) —— 連線瞬斷的平均間隔時間。

在這樣的規模下,即使僅有數秒的 link flap(連線抖動),都可能讓數千個 GPU 的訓練任務中斷、回退 checkpoint,導致高昂的時間與成本損失。

Credo 強調:當光模組的複雜性提高、溫度與接頭變數增多時,銅纜反而提供更穩定的傳輸基礎。


2. AI 網路分層:Scale-Up vs Scale-Out

Credo 將現代 AI 網路分為兩層:

  • Scale-Up Network:機架內 GPU 間的高速互連(如 NVLink),使用 TCP-based 通訊,具高可靠性。

  • Scale-Out Network(Backend Fabric):跨機架 GPU 通訊,多使用 UDP-based 傳輸,速度快但不具自我修復機制。

當 Scale-Out 層出現 link flap 時,整個 GPU 叢集可能短暫失聯,造成計算效率驟降。

Credo 的觀點是:若在最靠近 GPU 的「第一跳」導入高可靠銅纜(Active Electrical Cable, AEC),能顯著減少這類中斷。


3. 為什麼銅纜在 AI 網路中回歸?

過去,銅纜被認為笨重、距離短、難以管理。

但 Credo 的 AEC(Active Electrical Cable)改變了這個現況:

  • AEC 結構:在傳統被動銅纜(DACC)兩端嵌入 retimer 晶片,將長距離連線分為三段小通道,減少訊號退化。

  • 性能與特性

    • 長度可達 7 公尺,足以覆蓋機架間連線。

    • MTBF > 100M 小時(光模組約 10M 小時)。

    • 功耗僅約光模組的一半

    • 線徑細至 6mm,彎曲半徑小、布線靈活。

    • 實際部署量已超過 200 萬條 AEC,累積 60 億小時運行時間無 flap。

Credo 著名的紫色 AEC 線纜目前已被多家雲端客戶採用,成為高可靠 GPU 叢集的標準配線之一。


4. 1.6T 銅纜與未來架構

Credo 在今年會上展示了新一代 1.6T AEC 產品線(AEC 1.60):

  • 支援 200G/lane、8W@800G / 13W@1.6T

  • 長度可達 6 公尺,仍維持 Cat6 級細線徑。

  • 提供兩種配置:

    • 1.60-to-1.60:對應 NVIDIA CX9 NIC。

    • 1.60-to-2x800G:對應 CX8 NIC。

AEC 1.60 特別針對 NVIDIA “Reuben” 架構(Blackwell 後繼) 設計,預期能支援更高密度的 GPU 機架與液冷架構。


5. GPU 密度與液冷推動銅纜再進化

隨著 GPU 機架密度的提升與液冷散熱的普及,機架間距縮短,為銅纜提供了理想環境。

世代

GPU 型號

每機架 GPU 數

散熱

銅纜長度需求

Hopper 世代

NVL72

72 GPUs

空冷 + 局部液冷

7 m

Blackwell 世代

NVL144

144 GPUs

液冷

5 m

Reuben Ultra 世代

NVL576

576 GPUs

100% 液冷

1.5–2 m

Credo 指出,GPU 密度與液冷進展讓銅纜「距離短、功率低、可靠性高」的優勢被重新放大

未來 Reuben Ultra(2027 年)將成為首個以銅纜為主的「1.6T 級液冷叢集」架構。


6. 實體展示與生態整合

在 OCP 展場,Credo 同步展示了:

  • NVL404 與 NVL576 GPU 機架樣機,全面採用紫色 Credo AEC。

  • 展示了完整線纜佈線、彎折半徑與空間利用設計,證明 高密度 GPU 機架仍能以銅纜維持整齊與可靠性

  • 並與 NVIDIA、Jabil、Supermicro 等合作夥伴同步展示 Reuben 架構的初期線纜設計方案。


總結

Credo 在 OCP 2025 的演講讓人重新審視銅纜在 AI 資料中心的價值。

當光互連專注於大範圍高速傳輸時,銅纜在「近距離、關鍵連線的可靠性層」仍有不可取代的角色。

隨著 GPU 架構朝高密度與液冷演進,AEC 的低功耗、高可靠與低維護特性,讓它成為 AI 世代中銅纜的第二春。


延伸觀點

  1. 技術啟示

    • Credo 的觀點反映出「光與銅的分工時代」:

      光模組負責遠距連線(Scale-Out),銅纜專注短距高速(Scale-Up)。

    • AEC 與 DSP/SerDes 整合後,電信號品質控制已進入矽層時代,銅纜也變得「智慧化」。

  2. 供應鏈觀察

    • Credo 具備自有 DSP、SerDes、製造與測試實驗室,形成 完整自製垂直整合鏈,是其產品可靠性的關鍵。

    • AEC 的普及也使 ODM 系統商(如 Supermicro、Jabil) 更容易整合異廠商 GPU 架構,降低模組相依。

  3. 市場趨勢

    • 在未來的 AI 資料中心中,網路將呈現「Optical for Scale-Out, Copper for Scale-Up」的雙層結構。

    • 這意味著未來光學封裝與銅纜產品不再競爭,而是並行發展,共同構成高可靠、高效率的 AI 基礎設施。

最新文章

查看全部
OCP Global Summit 2025_Supermicro_Building an AI Data Center of the Future Requires a Combination of Standardization and Innovation

前言 在 OCP Global Summit 2025 上,Supermicro 分享了他們對未來 AI 資料中心的觀點,強調要兼顧  標準化與創新 。隨著 AI 訓練與推論需求快速成長,單一伺服器的效能提升已不足以支撐產業需求,必須透過  集群化、模組化與液冷設計  來實現大規模部署。Supermicro 特別強調,開放社群 OCP 在推動標準與技術落地的角色至關重要 Building an A

 
 
 
OCP Global Summit 2025_AMD_A Fully Open and Collaborative AI Ecosystem

前言 在 OCP Global Summit 2025 上,AMD 分享了他們對 AI 基礎設施的觀點,主題是  「A Fully Open and Collaborative AI Ecosystem」 。AMD 強調,AI 市場正在以驚人的速度成長,推動資料中心進入新一輪基礎設施升級。核心訊息很清楚: 唯有透過開放與合作,才能真正釋放 AI 的潛力 。 內容 AI 市場的爆炸性成長 AMD 提

 
 
 
OCP Global Summit 2025_ARM_What AI Wants: New Silicon, New Systems, and a New Era for the Data Center

前言 在 OCP Global Summit 2025 上,ARM 分享了他們對 AI 時代資料中心演進的觀點。隨著 AI 工作負載爆炸式成長,效能與能效(performance per watt)已成為產業唯一的核心指標。ARM 透過回顧 Neoverse 的發展歷程、強調客製化晶片的重要性,以及提出 Chiplet System Architecture(CSA)的構想,展現了他們在推動新一代

 
 
 

留言


  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page