OCP Global Summit 2025_Credo_Wired for Success: Enhancing AI Cluster Reliability with Copper Cables
- simpletechtrend
- 11月3日
- 讀畢需時 4 分鐘
前言
在 OCP Global Summit 2025 上,Credo 帶來了一個看似傳統、卻在 AI 時代重新被重視的主題——銅纜(Copper)在 AI 資料中心的角色回歸。
當業界普遍關注光互連(Optical Interconnect)與 CPO 技術時,Credo 以實際部署數據與可靠性分析指出:在 GPU 密集叢集的近距離連接中,銅纜不僅依然可行,甚至是提高可靠度的關鍵選項。
內容
1. AI 時代的網路瓶頸:可靠性比頻寬更重要
隨著 AI 訓練叢集從 16K GPU 進化到 3M GPU、功率超過 5 GW 的規模,網路的可靠性成為系統運行的關鍵因素。
Credo 提出了一個新指標:
MTBF-LF(Mean Time Between Link Flap) —— 連線瞬斷的平均間隔時間。
在這樣的規模下,即使僅有數秒的 link flap(連線抖動),都可能讓數千個 GPU 的訓練任務中斷、回退 checkpoint,導致高昂的時間與成本損失。
Credo 強調:當光模組的複雜性提高、溫度與接頭變數增多時,銅纜反而提供更穩定的傳輸基礎。
2. AI 網路分層:Scale-Up vs Scale-Out
Credo 將現代 AI 網路分為兩層:
Scale-Up Network:機架內 GPU 間的高速互連(如 NVLink),使用 TCP-based 通訊,具高可靠性。
Scale-Out Network(Backend Fabric):跨機架 GPU 通訊,多使用 UDP-based 傳輸,速度快但不具自我修復機制。
當 Scale-Out 層出現 link flap 時,整個 GPU 叢集可能短暫失聯,造成計算效率驟降。
Credo 的觀點是:若在最靠近 GPU 的「第一跳」導入高可靠銅纜(Active Electrical Cable, AEC),能顯著減少這類中斷。
3. 為什麼銅纜在 AI 網路中回歸?
過去,銅纜被認為笨重、距離短、難以管理。
但 Credo 的 AEC(Active Electrical Cable)改變了這個現況:
AEC 結構:在傳統被動銅纜(DACC)兩端嵌入 retimer 晶片,將長距離連線分為三段小通道,減少訊號退化。
性能與特性:
長度可達 7 公尺,足以覆蓋機架間連線。
MTBF > 100M 小時(光模組約 10M 小時)。
功耗僅約光模組的一半。
線徑細至 6mm,彎曲半徑小、布線靈活。
實際部署量已超過 200 萬條 AEC,累積 60 億小時運行時間無 flap。
Credo 著名的紫色 AEC 線纜目前已被多家雲端客戶採用,成為高可靠 GPU 叢集的標準配線之一。
4. 1.6T 銅纜與未來架構
Credo 在今年會上展示了新一代 1.6T AEC 產品線(AEC 1.60):
支援 200G/lane、8W@800G / 13W@1.6T。
長度可達 6 公尺,仍維持 Cat6 級細線徑。
提供兩種配置:
1.60-to-1.60:對應 NVIDIA CX9 NIC。
1.60-to-2x800G:對應 CX8 NIC。
AEC 1.60 特別針對 NVIDIA “Reuben” 架構(Blackwell 後繼) 設計,預期能支援更高密度的 GPU 機架與液冷架構。
5. GPU 密度與液冷推動銅纜再進化
隨著 GPU 機架密度的提升與液冷散熱的普及,機架間距縮短,為銅纜提供了理想環境。
世代 | GPU 型號 | 每機架 GPU 數 | 散熱 | 銅纜長度需求 |
Hopper 世代 | NVL72 | 72 GPUs | 空冷 + 局部液冷 | 7 m |
Blackwell 世代 | NVL144 | 144 GPUs | 液冷 | 5 m |
Reuben Ultra 世代 | NVL576 | 576 GPUs | 100% 液冷 | 1.5–2 m |
Credo 指出,GPU 密度與液冷進展讓銅纜「距離短、功率低、可靠性高」的優勢被重新放大。
未來 Reuben Ultra(2027 年)將成為首個以銅纜為主的「1.6T 級液冷叢集」架構。
6. 實體展示與生態整合
在 OCP 展場,Credo 同步展示了:
NVL404 與 NVL576 GPU 機架樣機,全面採用紫色 Credo AEC。
展示了完整線纜佈線、彎折半徑與空間利用設計,證明 高密度 GPU 機架仍能以銅纜維持整齊與可靠性。
並與 NVIDIA、Jabil、Supermicro 等合作夥伴同步展示 Reuben 架構的初期線纜設計方案。
總結
Credo 在 OCP 2025 的演講讓人重新審視銅纜在 AI 資料中心的價值。
當光互連專注於大範圍高速傳輸時,銅纜在「近距離、關鍵連線的可靠性層」仍有不可取代的角色。
隨著 GPU 架構朝高密度與液冷演進,AEC 的低功耗、高可靠與低維護特性,讓它成為 AI 世代中銅纜的第二春。
延伸觀點
技術啟示
Credo 的觀點反映出「光與銅的分工時代」:
光模組負責遠距連線(Scale-Out),銅纜專注短距高速(Scale-Up)。
AEC 與 DSP/SerDes 整合後,電信號品質控制已進入矽層時代,銅纜也變得「智慧化」。
供應鏈觀察
Credo 具備自有 DSP、SerDes、製造與測試實驗室,形成 完整自製垂直整合鏈,是其產品可靠性的關鍵。
AEC 的普及也使 ODM 系統商(如 Supermicro、Jabil) 更容易整合異廠商 GPU 架構,降低模組相依。
市場趨勢
在未來的 AI 資料中心中,網路將呈現「Optical for Scale-Out, Copper for Scale-Up」的雙層結構。
這意味著未來光學封裝與銅纜產品不再競爭,而是並行發展,共同構成高可靠、高效率的 AI 基礎設施。



留言