top of page

OCP Global Summit 2025_Credo & Oracle_The Path to Zero Flap: Reinventing Optical Reliability for Scalable AI Clusters

前言

AI 時代的資料中心正進入「兆瓦級叢集」的時代。當單一叢集規模從 3MW 成長到 30MW,再到 300MW、1GW 甚至 10GW,網路穩定性成為關鍵命脈。

在這樣的超大規模環境中,Link Flap(鏈路閃斷) 已成為阻礙 AI Fabric 擴展的最大隱憂。

在 OCP 2025,Credo 與 Oracle Cloud Infrastructure(OCI) 共同發表「Zero Flap」計畫,目標是以智慧光模組、即時遙測(Telemetry)與分散式監控機制,

徹底消除 Link Flap 問題,重新定義 AI Cluster 的光連接可靠度。


內容

1. 問題根源:L1 穩定性是所有層的瓶頸

OCI 網路工程主管 Steve Manley 開場直言:

「Link Flap 不是小問題,它讓整個 Fabric 卡頓、重建、甚至讓數萬 GPU 的訓練任務崩潰。」

在 AI 叢集中,一條光連線的非預期中斷會導致:

  • L1~L3 層級的全面重置(Reset)

  • IGP 重新收斂(Re-convergence)

  • RDMA Job Instability 與 Checkpoint Thrashing

  • 每次閃斷都可能讓數萬 GPU 小時的運算報廢。

Manley 強調:「如果 L1 不穩,所有上層協定的穩定都只是幻覺。


2. Link Flap 為何難以根治

過去 18 個月,Oracle 的工程團隊深入分析 Link Flap 的成因,發現它是「系統性問題」而非單一元件缺陷。主要原因包括:

  • 光收發器缺陷:雷射老化、PD 靈敏度漂移;

  • 連接器與光纖污染:灰塵、接頭鬆動、MPO 對位誤差;

  • 環境因素:施工粉塵、熱循環(Thermal Cycling)導致光模組性能漂移;

  • ESD 靜電損傷:安裝人員誤觸造成潛在延遲故障;

  • 韌體與 DSP 可靠性差異:光模組與交換器間的互通性問題。

這些問題在小規模環境中可被容忍,但當系統放大至 上百萬條連線、上萬節點 時,

每一次閃斷都會放大成整體網路壅塞與訓練延遲,嚴重影響運算效能與營收。


3. 傳統解法的極限

Oracle 現行的臨時應對方式是「Accelerated Fabric Grooming」:

  • 當偵測到可能不穩定的連線,就直接關閉該 Port;

  • 以「犧牲頻寬」換取穩定度;

  • 透過能量分析、誤碼分布、Histograms 與 Pattern Matching 來預測異常;

  • 並在 Host 層收集更多資料以協助診斷。

這種做法有效但成本高昂。Manley 形容:「我寧願少幾條線,也不要一個會閃的 Fabric。

他展示一個現場實例──資料中心一角的「光模組桶(Bucket of Optics)」

裝滿被移除的昂貴 800G 模組:「這些本該在 Switch 裡發光,而不是在桶裡積灰。」


4. 問題轉機:從集中監控走向分散智慧

Manley 提出一個根本性觀點轉變:

「我們當年讓網際網路成功的原因,是因為它是分散式的;那為什麼光網路還在依賴集中式監控?」

他主張讓 光模組本身成為智能節點,由模組內建 DSP 直接進行健康監測與判斷。

光模組知道:

  • 自己的溫度、功率、SNR、BER;

  • 對端模組的序號與狀態;

  • 可主動發出「Check Engine Light」式告警。

這就是「Zero Flap Optics」的核心理念──讓每個模組都有自我診斷與報警能力


5. Credo 的解法:Zero Flap 光模組

Credo CEO Bill Brennan 接著介紹技術細節。

Zero Flap 模組是與 Oracle 共同研發的 智慧光模組平台,具備以下三個核心能力:

(1) 強化設計(Hardened Optics)

  • 在熱循環與環境應力測試下反覆破壞、修復、再測試;

  • 可靠度比傳統模組高出 2~3 個數量級

  • 適用於 800G / 1.6T 模組。

(2) 內建 Telemetry 系統

  • 提供即時的 I-height、SNR、Pre-FEC BER、Error Histogram、功率漂移等資料;

  • 能即時標記潛在劣化鏈路,類似「光層健康圖譜」;

  • 新增 ESD 損傷偵測 功能,可預測潛在延遲性失效。

(3) In-band Messaging & 自我隔離機制

  • 模組間可直接通訊、交換健康資訊;

  • 可在閾值觸發時自動將不穩定鏈路隔離,不等待外部控制系統;

  • 同時可將狀態上傳至集中式管理平台(Zero Flap Agent)。

Credo 強調:「這不僅是更好的模組,而是一個會思考的模組。


6. 開放標準化:Optical Reliability Project

Credo 與 Oracle 已將 Zero Flap Host Spec 提交給 OCP,

正式啟動 Optical Reliability Project

目標是建立跨廠商可互通的光層遙測與自我診斷標準。

這個計畫將包含:

  • 公開 Host Driver 與 API;

  • 與多家 Switch Vendor(含 Broadcom、Cisco、Arista)合作驗證;

  • 推動業界形成「Zero Flap Ready」認證。

Manley 總結道:

「800G 是重複 400G 的錯誤。1.6T 會更難。我們該在這裡畫下一條新線。」

總結

「Zero Flap」不只是 Credo 與 Oracle 的合作專案,而是 AI 資料中心可靠度的轉折點。

當 AI Fabric 跨越數萬節點、數百萬連線時,

唯有讓 光模組具備即時自我感知、分散決策與開放遙測能力

才能真正實現「AI Ready Optical Infrastructure」。

資料中心的穩定性,將從電變成光的智慧。

延伸觀點

  1. 技術啟示

    • Zero Flap 模組代表光層智慧化的起點,未來光模組將朝「自我修復、分散控制、軟體可定義」演進。

    • DSP 在光層中扮演的角色將從信號處理擴展到「邊緣 AI 監測核心」。

  2. 產業意涵

    • 這項標準化動作可能成為 800G / 1.6T 世代的可靠性分水嶺

    • Credo 以「光模組 Telemetry 平台」切入,可能對傳統光模組供應商(如 Coherent、Lumentum、InnoLight)形成顛覆性影響。

  3. 供應鏈趨勢

    • 當 Oracle 將 Zero Flap 機制整合入 OCI 網路架構後,其他 Hyperscaler(AWS、Google、Meta)勢必跟進。

    • 未來光模組規格書可能不只要求功耗、BER 與溫度範圍,而會新增「Telemetry Capability」與「Self-Isolation Behavior」欄位。

最新文章

查看全部
OCP Global Summit 2025_Broadcom_Scale-Out Networks and Scale-Up Architectures with CPO

前言 在 OCP Global Summit 2025 上,Broadcom 分享了他們對 AI 時代資料中心網路的最新架構觀點,主題為  「Scale-Out Networks and Scale-Up Architectures with CPO」 。Broadcom 強調,隨著 GPU 集群規模快速成長,僅靠電性互連已無法滿足訓練效率與能耗的需求, CPO(Co-Packaged Optic

 
 
 
OCP Global Summit 2025_Google_OCP Optical Circuit Switching Subproject Update

前言 在 OCP Global Summit 2025 上,Google 針對  OCP Optical Circuit Switching (OCS)  子專案帶來了最新進展。這項工作由 Google 工程師主導,旨在推動 OCS 的開放標準化,讓光路交換(Optical Circuit Switching)能成為  AI 資料中心與雲端網路基礎設施的新核心技術 。OCS 的核心精神是「 純光域

 
 
 
OCP Global Summit 2025_Marvell & Jabil_Next Generation Co-Packaged Optics System

前言 在 OCP Global Summit 2025 上,Marvell 與 Jabil 聯合展示了他們最新的  Co-Packaged Optics(CPO)系統設計 。這次的分享聚焦於系統整合,而非單純光學模組層面,展現從  電晶片、光學引擎、系統板設計、冷卻、製造到部署  的全棧協同。Marvell 強調:「CPO 已不再是 ‘if’,而是 ‘when’。」這意味著,隨著 AI 與高速運算

 
 
 

留言


  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page