top of page

OFC2026 - Building AI Ready Fabrics: Scaling from IMDD to Coherent DCI - Microsoft Azure

  • 3月23日
  • 讀畢需時 4 分鐘

在 OFC 2026 的 Data Center Summit 開幕主題演講中,Microsoft Azure 網路架構核心人物 Yawei Yin 博士針對 AI 時代下的網路基礎設施演進發表了深度見解 。隨著 AI 模型規模以每兩年 750 倍的速度狂飆,遠超摩爾定律的 2 倍增長,網路已成為限制算力發揮的最關鍵瓶頸 。


本次演講的核心在於如何構建「AI Ready」的網路織物(Fabrics),並將其從傳統的插拔式 IMDD(強度調製直接檢測)技術,全面推向相干光 DCI(數據中心互連)的新高度 。


  1. 算力與網路的斷層:Scale-up, Scale-out, and Scale-across

微軟在 2026 年的基礎架構佈局已達到 70 個以上的區域(Regions)、400 個以上的數據中心,以及驚人的 18 Pb/s 總容量 。然而,算力與網路之間的「速度間隙」(Speed Gap)已擴大到 3 個數量級以上 。


為了解決此問題,微軟定義了三維擴展架構:

  • Scale-up (縱向擴展): 在機架(Rack)內部,針對 XPU 伺服器進行同步高頻通信 。


  • Scale-out (橫向擴展): 在數據中心內部連接數萬個 GPU 叢集 。


  • Scale-across (跨區擴展): 由於單一站點電力供應通常僅 50-300 MW,而下一代訓練叢集需求高達 1-5+ GW,分散式多站點訓練(Distributed multi-site training)已不再是選項,而是建築設計的必然 。




  1. 能量效率 (pJ/bit) 的殘酷對陣

在 AI 織物中,功耗是決定縮放限制的終極因素 。Yawei Yin 博士提供了一份極具權威性的各類光技術能效對比表:


技術類別

能量效率 (pJ/bit)

傳輸距離 (Reach)

當前狀態 (Status)

Traditional Transponder

>1000

>1,000 km

Mature/Legacy

DCI Metro (IP over DWDM)

45-55

10-120 km

Mainstream

FRO (Fully-Retimed Optics)

18-25

500 m - $10$ km

Deployed

LPO (Linear Pluggable Optics)

7-10

500 m+

Deploying

CPO (Co-Packaged Optics)

1-5

10-30 m+

Emerging

微軟指出,相干 DSP 佔據了 AOC(主動光纜)60% 以上的功耗與 50% 的成本 。為此,微軟正推動 Media Converters (媒介轉換器) 方案,透過將相干 DSP 整合進插拔式模組,消除線卡上的高頻電信號走線,預計可將長途傳輸能效從 1,000 pJ/bit 降至約 100 pJ/bit 。


  1. 可靠性挑戰:從槍擊到 AI 代理管理

當網路基礎設施走出數據中心(Scale-across)後,外部設備(OSP)光纖的可用性僅約 97.7% 。 Yawei Yin 博士展示了一系列令人意外的故障原因:


  • 光纖遭槍擊、弓箭射擊、囓齒動物啃咬 。


  • 挖土機施工或土石流導致的中斷 。


與傳統雲端運算具備故障容忍力不同,AI 叢集是高度耦合的超級計算機 。同步訓練任務一旦發生單點故障,整體進度就會停擺 。


為了應對這種規模的操作,微軟在運維中導入了 AI 代理團隊(Miles, Pal, Niobe),負責處理從第一線遙測分析到第二級告警處理與數據中心技術員的交互 。這使得僅 20-30 人的團隊能有效管理超過 50 萬台設備 。


  1. 關鍵使能技術:Hollow Core Fiber 與 OCS

為了解決延遲與頻寬限制,微軟展示了兩項關鍵物理層技術:

  1. Hollow Core Fiber (空芯光纖, HCF)

    • 低延遲:光在空氣中傳輸速度比玻璃快約 33%,可使 WAN 延遲降低 33%,數據中心可用區域(AZ)半徑擴大 47% 。


    • 超低損耗:2025 年已創下 <0.11 dB/km 的世界紀錄 。


    • 無非線性效應:可顯著提高單纖容量 。


  2. Optical Circuit Switching (光電路交換, OCS)

    • 由於電氣封包交換 ASIC 的 Radix(基數)增長速度難以滿足數十萬 GPU 的連接需求,OCS 提供了一種彈性的拓撲重構方式 。


    • 微軟正評估 MEMS 反射鏡、數位液晶與壓電致動器等不同的 OCS 實現方案 。


Simple Tech Trend 觀點:

Yawei Yin 博士的報告傳達了一個明確訊號:光通訊不再只是數據中心的「外部配件」,而是 AI 超級計算機的核心骨幹。 以下是我們對未來 12-24 個月的預判:

  • Media Converter 的興起: 相干技術進入數據中心內部(Intra-DC)已成定局。微軟對 1600ZR 與整合式媒體轉換器的強調,預示著 400G/800G 相干模組將迎來新一波放量潮。

  • 分散式訓練的架構革命: 當我們無法在單點站點提供 5 GW 電力時,網路延遲的優化(如 HCF 技術)將成為決定 AI 廠商競爭力的核心。

  • LPO 與 CPO 的並行期: 儘管 CPO 擁有極佳的 1-5 pJ/bit 能效,但微軟強調其在可維修性與良率上的挑戰 。在 2026-2027 年,LPO (Linear Pluggable Optics) 仍將是 AI 叢集部署的主力。


微軟目前正面臨雷射器與各類組件的普遍供應短缺 。這對光收發模組供應鏈(如 Coherent, Marvell, Broadcom)以及台積電的高階封裝(針對 CPO/OCI)而言,是極其長線的利多。



留言

評等為 0(最高為 5 顆星)。
暫無評等

新增評等
  • 線程
  • Facebook
  • Instagram

©2021 by DRFLYOUT. Proudly created with Wix.com

bottom of page