AI數(shù)據(jù)中心圈最近炸了!CPO被吹成解決帶寬、延遲、功耗的神藥,但你知道嗎?除了少數(shù)大廠,90%的數(shù)據(jù)中心都不敢碰它!到底是技術(shù)不成熟,還是背后藏著運維的大坑?今天就來扒一扒CPO的真相。
CPO其實早有歷史,IBM早年就在超級計算機(jī)互連里研究過類似概念。但之前它像個“萬金油”,被吹能用于傳感器、電信、高性能計算等各種領(lǐng)域,結(jié)果需求分散,沒火起來。
![]()
直到AI爆發(fā),情況變了,現(xiàn)在AI成了數(shù)據(jù)中心的核心負(fù)載,隨著交換機(jī)ASIC往51.2T甚至更高階走,電氣互連的損耗和功耗越來越大,CPO的價值終于凸顯。
把光接口靠近芯片,縮短電氣路徑,能提升能效和帶寬密度,為未來超高基數(shù)交換機(jī)鋪路。聽起來完美?但問題來了。
你去OFC、GTC這些展會看,CPO的演示都很炫,但除了微軟、Meta、谷歌、亞馬遜這些超大規(guī)模玩家在內(nèi)部試驗,大多數(shù)數(shù)據(jù)中心連碰都不敢碰。
為啥?大廠把CPO當(dāng)下一代AI基礎(chǔ)設(shè)施的關(guān)鍵,他們有定制能力,不怕供應(yīng)商鎖定,只要性能夠好,就算只能從一家買也愿意。
但小企業(yè)不一樣:他們沒有專門的工程團(tuán)隊維護(hù)光集成項目,更看重互操作性和現(xiàn)場可維護(hù)性。對他們來說,CPO是“下一個十年的技術(shù)”,得等大廠試完水,標(biāo)準(zhǔn)化和生態(tài)成熟了才敢用。
謹(jǐn)慎的用戶不會直接從可插拔跳到CPO,而是選LPO和NPO這些中間方案。LPO把DSP去掉,能降功耗和延遲,但傳輸距離短、主機(jī)要求嚴(yán);NPO不用完全共封裝,就能享受近距離傳輸?shù)暮锰帲档蜕岷椭圃祜L(fēng)險。
為啥選它們?因為大家不信任早期CPO的生產(chǎn)良率、散熱性能,更怕維修時要換整個線路卡甚至交換機(jī),這可是運維團(tuán)隊的噩夢!過渡方案能讓他們試水,又不用重寫操作手冊。
CPO最大的技術(shù)障礙就是熱管理:光器件(尤其是激光器)對溫度敏感,靠近芯片容易導(dǎo)致波長漂移、老化。有趣的是,為了解決這個問題,可插拔居然又回來了。
比如ELSFP(外部激光器可插拔器件),把激光器放在溫度低的區(qū)域,壞了能換,不用動交換機(jī)ASIC。
這解決了用戶的“維修焦慮”,但也帶來新問題:插入損耗增加,一個激光器壞了可能影響多個通道。不過,這種折中方案確實讓CPO看起來沒那么脆弱了。
博通和英偉達(dá)是CPO的主要推動者:博通用Bailly平臺樹立了標(biāo)桿,英偉達(dá)把CPO集成到Spectrum-X和Quantum-X里,讓它成了AI圈的熱門話題。
但用戶心里打鼓:以前光模塊是可互換的商品,能從多家買;CPO把光模塊集成到交換機(jī)里,就只能依賴交換機(jī)供應(yīng)商,萬一被鎖死怎么辦?
![]()
數(shù)據(jù)中心經(jīng)理最不想聽到的就是“光模塊壞了要換整個線路卡”。這違背了他們幾十年的運維直覺,甚至有人覺得CPO是“偽裝成創(chuàng)新的廠商鎖定”。所以O(shè)IF這些組織的互操作性工作才這么重要。
CPO的增長會是非線性的,分三個階段:2026-2028年,它會成為超大規(guī)模AI集群的輔助工具,但不是主流;2029-2032年,AI集群擴(kuò)展到100T級,CPO會變成必需品;2032-2035年,它會成為主流,非超大規(guī)模玩家也開始大規(guī)模采用。
不過也有不確定性:如果AI小模型流行,對帶寬需求降低,CPO可能變成小眾技術(shù);還有銅纜,英偉達(dá)在NVLink里還在用銅纜,光纖取代銅纜的速度誰也說不準(zhǔn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.