ICC訊(編譯:Nina)LightCounting(LC)對Photonics West的CPO論壇討論發(fā)表了評論。在今年參會者達到22000人的Photonics West會議上,光通信并不是討論中心。然而,在參與人數眾多的共封裝光學(Co-Packaged Optics,CPO)論壇上,大家提出了一個重要的問題:如果網絡只占云數據中心總功耗的2-3%,我們?yōu)楹我獡?A href="http://m.getprofitprime.com/site/CN/Search.aspx?page=1&keywords=%e5%85%89%e6%a8%a1%e5%9d%97&column_id=ALL&station=%E5%85%A8%E9%83%A8" target="_blank">光模塊功耗不斷增加?
Coherent的Vipur Bhat展示了兩年前發(fā)表在《科學》(Science)雜志上的一篇文章中的數據,數據顯示,大家對數據中心日益增長的功耗的擔憂被高估了。這項研究比較了2010年和2018年所有數據中心的功耗,僅增長了約8%。將這一趨勢推至2022-2023年,表明由于數據中心效率的持續(xù)提高,增長幅度很小,為2-3%。
這種改善主要有兩個原因:
1. 將工作負載從企業(yè)數據中心轉移到由云公司運營的大型數據中心,這要高效得多。
2. 占90%功耗的服務器和內存的效率穩(wěn)步提高。
2012年,網絡消耗的電力僅占1%,2018年占2%,到2022年約占3%。我們需要在意它嗎?
下圖展示了LC對云數據中心部署的光模塊功耗的計算(以年度部署計算,而不是累積計算)。請注意,縱坐標刻度是對數刻度。在對數刻度的圖表中,任何直線都該引起重視,因為它代表著指數級增長。等懷疑論者意識到這一點之時,解決電力消耗問題可能為時已晚。
根據這一分析,2018-2022年部署在云數據中心中的光模塊的總功率加起來達到330MW或1.2TWh,略高于目前云數據中心總功耗的1%。問題是,到2028年,光學器件預計將占其中的8%以上。該分析說明了可插拔光學器件的功率效率不斷提高:從100G模塊中的35pJ/bit提高到800G收發(fā)器中的20pJ/bit。
到2028年,云數據中心的光學器件將占到總功耗的8%,我們是否應該對此感到擔憂?是的,我們應該。云數據中心運營商在為其設施提供更多電力方面面臨重大限制。如果光學器件消耗更多的功率,他們將被迫減少分配給服務器和內存的功率預算。
一個更重要的問題是,人工智能(AI)集群的設計受到光連接的高功率和成本的嚴重限制。英偉達聲稱,如果不受功率和成本的限制,他們現(xiàn)在可以多使用32倍的光學器件。AI模型的執(zhí)行需要大型GPU陣列,如果供應商能夠降低其功耗和成本,高帶寬光連接將是最佳解決方案。
Ayar Labs、Broadcom、IBM和Ranovus的下一代CPO設計預計將達到2-3pJ/bit的能源效率。Rajeev Ram教授是Photonics West的全體會議發(fā)言人,也是Ayar Labs的聯(lián)合創(chuàng)始人,他聲稱0.1pJ/bit是現(xiàn)有每通道200G技術可以達到的。他在麻省理工學院的團隊正在研究低壓調制器和改進的探測器,目標是使互連功耗達到0.001pJ/bit或更低。麻省理工學院的一些解決方案將使用非常低的數據(Mbps)速率來降低功耗。Ayar Labs的方法也是基于使用較低速度(64Gbps)的NRZ光學器件來達到2pJ/bit。他們能否以112G每通道NRZ使功耗低于1pJ/bit還有待觀察。
我們行業(yè)正處于十字路口。我們可以保持現(xiàn)狀,繼續(xù)使用可插拔光學器件,并逐步改進它們。AI集群的擴展速度不會那么快,但會有其他方法來優(yōu)化AI模型,以滿足有限網絡帶寬的限制。另一種選擇是冒險開發(fā)新的光學技術,采用新的封裝和光纖耦合設計,從根本上改善成本和功率效率。這種方法將極大地促進AI的發(fā)展,并將我們的行業(yè)提升到一個全新的水平。這條道路令人興奮,但懷疑論者認為這非常具有挑戰(zhàn)性的。他們也沒錯,然而,錯過這個機會將是一個錯誤。
原文:LightCounting :: Our industry is at a crossroads | https://www.lightcounting.com/newsletter/february-2023-our-industry-is-at-a-crossroads-269