ICC訊 (編譯:Aiur)如今,云數(shù)據(jù)中心正忙于為絕大多數(shù)應用程序軟件開發(fā)者構建基于人工智能(AI)的計算平臺,這些開發(fā)人員不一定必須是機器學習(ML)或數(shù)據(jù)科學領域的專家才能推動行業(yè)更加流行和強大,其影響可能很快會超過互聯(lián)網(wǎng)和移動設備平臺。
兩個關鍵因素對于云AI計算平臺的成功至關重要。一種是計算能力,另一種是分布式計算機之間的互連帶寬。從2012年到AlphaGo,計算能力以每3-4個月翻一番的驚人速度增長,這要歸功于針對分布式和并行計算進行了優(yōu)化的先進計算機處理器,例如圖形處理單元(GPU)和Tensor處理單元(TPU)。下圖顯示了Google AI/ML的增長,而曲棍球棒的增長率與其他主要的云AI/ML數(shù)據(jù)中心相似。作為結果,AI/ML已將東西向(east-west)內(nèi)部數(shù)據(jù)中心的流量推向了前所未有的高度。
盡管數(shù)據(jù)中心運營商一直在使用AI/ML優(yōu)化其網(wǎng)絡性能以支持AI/ML流量,但是網(wǎng)絡生態(tài)系統(tǒng)的增長速度仍然慢很多,因為以太網(wǎng)交換機和光收發(fā)器的容量平均要每兩年才翻一番,并且未來幾年,這一增長率甚至可能會放緩。盡管如此,基于多個光學互連計算場的超級計算機最近已經(jīng)實現(xiàn)了驚人的700 petaFlop的AI超級計算性能。該超級計算平臺,通過在主干和分支交換機中使用數(shù)千個短距離200 Gb/s可插拔光收發(fā)器來實現(xiàn)光互連。在不遠的將來,200 Gb/s可插拔收發(fā)器將升級為400 Gb/s可插拔收發(fā)器。
展望未來,隨著以太網(wǎng)/ Infiniband交換機的速度不斷提高,可插拔光收發(fā)器可以由采用共封裝的光學器件代替(CPO,意味著光學組件要與脊骨、葉交換機共同封裝)??梢灶A見,CPO還將用作未來服務器芯片,用于網(wǎng)絡接口卡和GPU/TPU的≥100?400Gb/s光學接口。CPO所面臨的挑戰(zhàn)不僅在于3D光電封裝技術,還在于CPO封裝所要求的超高可靠性。超高可靠性是基于這樣一個事實:如果圍繞中央交換機的光收發(fā)器發(fā)生故障,則必須更換整個系統(tǒng)。
最近,許多研究人員和初創(chuàng)公司正在研究使用硅光子集成芯片(PIC)為AI/ML執(zhí)行更快、更省電的人工神經(jīng)網(wǎng)絡的可能性。他們的動機基于這樣一個事實,即典型的機器學習系統(tǒng)在矩陣乘法上花費了90%以上的精力和運行時間,而線性矩陣乘法可以使用并行或級聯(lián)硅光子馬赫-曾德爾干涉儀(MZI)來實現(xiàn)。但是,這些方法將面臨根本的可伸縮性挑戰(zhàn)。對于系列MZI,可擴展性受到較大的級聯(lián)光學插入損耗的限制。對于使用波分復用的并行方法,可伸縮性則受到可用波長數(shù)(包括陣列激光器或梳狀激光器的各種限制)以及硅光子PIC上波長復用器/解復用器的設計的限制。
作者:Winston Way, Ph.D,新飛通
新聞來源:訊石光通訊網(wǎng)
相關文章