OCP Global Summit 2025_Credo & Oracle_The Path to Zero Flap: Reinventing Optical Reliability for Scalable AI Clusters
- simpletechtrend
- 11月3日
- 讀畢需時 4 分鐘
前言
AI 時代的資料中心正進入「兆瓦級叢集」的時代。當單一叢集規模從 3MW 成長到 30MW,再到 300MW、1GW 甚至 10GW,網路穩定性成為關鍵命脈。
在這樣的超大規模環境中,Link Flap(鏈路閃斷) 已成為阻礙 AI Fabric 擴展的最大隱憂。
在 OCP 2025,Credo 與 Oracle Cloud Infrastructure(OCI) 共同發表「Zero Flap」計畫,目標是以智慧光模組、即時遙測(Telemetry)與分散式監控機制,
徹底消除 Link Flap 問題,重新定義 AI Cluster 的光連接可靠度。
內容
1. 問題根源:L1 穩定性是所有層的瓶頸
OCI 網路工程主管 Steve Manley 開場直言:
「Link Flap 不是小問題,它讓整個 Fabric 卡頓、重建、甚至讓數萬 GPU 的訓練任務崩潰。」
在 AI 叢集中,一條光連線的非預期中斷會導致:
L1~L3 層級的全面重置(Reset);
IGP 重新收斂(Re-convergence);
RDMA Job Instability 與 Checkpoint Thrashing;
每次閃斷都可能讓數萬 GPU 小時的運算報廢。
Manley 強調:「如果 L1 不穩,所有上層協定的穩定都只是幻覺。」
2. Link Flap 為何難以根治
過去 18 個月,Oracle 的工程團隊深入分析 Link Flap 的成因,發現它是「系統性問題」而非單一元件缺陷。主要原因包括:
光收發器缺陷:雷射老化、PD 靈敏度漂移;
連接器與光纖污染:灰塵、接頭鬆動、MPO 對位誤差;
環境因素:施工粉塵、熱循環(Thermal Cycling)導致光模組性能漂移;
ESD 靜電損傷:安裝人員誤觸造成潛在延遲故障;
韌體與 DSP 可靠性差異:光模組與交換器間的互通性問題。
這些問題在小規模環境中可被容忍,但當系統放大至 上百萬條連線、上萬節點 時,
每一次閃斷都會放大成整體網路壅塞與訓練延遲,嚴重影響運算效能與營收。
3. 傳統解法的極限
Oracle 現行的臨時應對方式是「Accelerated Fabric Grooming」:
當偵測到可能不穩定的連線,就直接關閉該 Port;
以「犧牲頻寬」換取穩定度;
透過能量分析、誤碼分布、Histograms 與 Pattern Matching 來預測異常;
並在 Host 層收集更多資料以協助診斷。
這種做法有效但成本高昂。Manley 形容:「我寧願少幾條線,也不要一個會閃的 Fabric。」
他展示一個現場實例──資料中心一角的「光模組桶(Bucket of Optics)」,
裝滿被移除的昂貴 800G 模組:「這些本該在 Switch 裡發光,而不是在桶裡積灰。」
4. 問題轉機:從集中監控走向分散智慧
Manley 提出一個根本性觀點轉變:
「我們當年讓網際網路成功的原因,是因為它是分散式的;那為什麼光網路還在依賴集中式監控?」
他主張讓 光模組本身成為智能節點,由模組內建 DSP 直接進行健康監測與判斷。
光模組知道:
自己的溫度、功率、SNR、BER;
對端模組的序號與狀態;
可主動發出「Check Engine Light」式告警。
這就是「Zero Flap Optics」的核心理念──讓每個模組都有自我診斷與報警能力。
5. Credo 的解法:Zero Flap 光模組
Credo CEO Bill Brennan 接著介紹技術細節。
Zero Flap 模組是與 Oracle 共同研發的 智慧光模組平台,具備以下三個核心能力:
(1) 強化設計(Hardened Optics)
在熱循環與環境應力測試下反覆破壞、修復、再測試;
可靠度比傳統模組高出 2~3 個數量級;
適用於 800G / 1.6T 模組。
(2) 內建 Telemetry 系統
提供即時的 I-height、SNR、Pre-FEC BER、Error Histogram、功率漂移等資料;
能即時標記潛在劣化鏈路,類似「光層健康圖譜」;
新增 ESD 損傷偵測 功能,可預測潛在延遲性失效。
(3) In-band Messaging & 自我隔離機制
模組間可直接通訊、交換健康資訊;
可在閾值觸發時自動將不穩定鏈路隔離,不等待外部控制系統;
同時可將狀態上傳至集中式管理平台(Zero Flap Agent)。
Credo 強調:「這不僅是更好的模組,而是一個會思考的模組。」
6. 開放標準化:Optical Reliability Project
Credo 與 Oracle 已將 Zero Flap Host Spec 提交給 OCP,
正式啟動 Optical Reliability Project,
目標是建立跨廠商可互通的光層遙測與自我診斷標準。
這個計畫將包含:
公開 Host Driver 與 API;
與多家 Switch Vendor(含 Broadcom、Cisco、Arista)合作驗證;
推動業界形成「Zero Flap Ready」認證。
Manley 總結道:
「800G 是重複 400G 的錯誤。1.6T 會更難。我們該在這裡畫下一條新線。」
總結
「Zero Flap」不只是 Credo 與 Oracle 的合作專案,而是 AI 資料中心可靠度的轉折點。
當 AI Fabric 跨越數萬節點、數百萬連線時,
唯有讓 光模組具備即時自我感知、分散決策與開放遙測能力,
才能真正實現「AI Ready Optical Infrastructure」。
資料中心的穩定性,將從電變成光的智慧。
延伸觀點
技術啟示
Zero Flap 模組代表光層智慧化的起點,未來光模組將朝「自我修復、分散控制、軟體可定義」演進。
DSP 在光層中扮演的角色將從信號處理擴展到「邊緣 AI 監測核心」。
產業意涵
這項標準化動作可能成為 800G / 1.6T 世代的可靠性分水嶺。
Credo 以「光模組 Telemetry 平台」切入,可能對傳統光模組供應商(如 Coherent、Lumentum、InnoLight)形成顛覆性影響。
供應鏈趨勢
當 Oracle 將 Zero Flap 機制整合入 OCI 網路架構後,其他 Hyperscaler(AWS、Google、Meta)勢必跟進。
未來光模組規格書可能不只要求功耗、BER 與溫度範圍,而會新增「Telemetry Capability」與「Self-Isolation Behavior」欄位。



留言