ICC訊(編譯:Nina)超級計算大會2023 (SC23)于2023年11月12日至17日在美國科羅拉多州丹佛市舉行,參會人數(shù)超過14000人,創(chuàng)下了新紀(jì)錄。
兩大主題主導(dǎo)了今年的會議:其一是光子學(xué)日益重要的作用,其二是高性能計算和人工智能超級計算機發(fā)展速度之間的矛盾。
使用光子學(xué),可以通過光纖發(fā)送PCI Express(PCIe)和Compute Express Link(CXL)等協(xié)議,從而實現(xiàn)數(shù)據(jù)中心的系統(tǒng)分解和新型超級計算架構(gòu)。
Drut Technologies,一家在SC22上嶄露頭角的系統(tǒng)初創(chuàng)公司,利用去年的活動推出了其服務(wù)器分解架構(gòu)。今年,這家初創(chuàng)公司展示了其日益增長的雄心。它正在開發(fā)一種架構(gòu),將這一概念擴展到數(shù)據(jù)中心。它的DynamicXcelerator(DX)架構(gòu)將支持多達(dá)4096個使用光交換的加速器,類似于谷歌互連其張量處理器單元(TPU)集群的方式。
其他光子展亮點包括Avicena的光學(xué)互連演示,展示了它所聲稱的世界上最小的1Tb/s基于microLED的收發(fā)器。Ayar Labs展示了其嵌入Intel FPGA的光學(xué)輸入輸出(I/O)TeraPHY小芯片,而Lightelligence則展示了在光鏈路上使用PCIe/CXL的內(nèi)存分解。
SC23也是最新的500強超級計算機亮相的地方。今年有一臺超級計算機——微軟Azure的Eagle——躋身前三,這是商業(yè)機器第一次獲得如此高的排名,而且是微軟在一周內(nèi)推出的。
Top500突出的一個趨勢是高性能計算正在放緩。直到2013年,高性能計算以每11年1000倍的速度增長,但自那以后,增長速度大幅放緩。Top500委員會認(rèn)為,計算能力現(xiàn)在以每11年不到10倍的速度增長。相比之下,超大規(guī)模提供商(Hyperscaler)的人工智能計算需求每3到4個月增長一倍,這種情況將在可預(yù)見的未來持續(xù)下去。
高性能計算和人工智能超級計算機的增長梯度不同有幾個原因。
高性能計算所需的處理是多種多樣的,要求非常高。由于它處于計算的前沿,因此也是第一個遇到關(guān)鍵限制的板塊。相比之下,人工智能和機器學(xué)習(xí)的計算更加專業(yè)化,且超大規(guī)模提供商在各個方面都做得非常出色,包括在處理器的指令級、浮點數(shù)學(xué)表示、核心、芯片和內(nèi)存以及刀片級。
此外,還介紹了如何通過使用先進(jìn)的網(wǎng)絡(luò)技術(shù)和拓?fù)浣Y(jié)構(gòu)來橫向和縱向擴展刀片以組成超級計算系統(tǒng)。反過來,人工智能計算需求的指數(shù)級增長不會無限期地持續(xù)下去,而不會出現(xiàn)瓶頸。與高性能計算一樣,這將需要新的思維。
兩場會議討論了高性能計算和人工智能計算瓶頸的問題:一個論壇討論了光I/O在未來人工智能和高性能計算系統(tǒng)中的作用,以及小芯片(Chiplets)如何使高性能計算和人工智能受益。
超級計算會議的重點是軟件、算法和應(yīng)用。但硬件——處理器、存儲器和包括光學(xué)在內(nèi)的互連——也有突出表現(xiàn)。例如,最新的Compute Express Link(CXL)規(guī)范3.1版在展會上發(fā)布,這是一年多來的首次升級。
英偉達(dá)在活動新聞發(fā)布會上發(fā)表的一個令人驚訝的聲明是,NVLink網(wǎng)絡(luò)沒有使用任何光學(xué)連接。這意味著英偉達(dá)部署的光學(xué)收發(fā)器和AOC主要用于InfiniBand連接,有些用于以太網(wǎng)。LightCounting將在2024年1月題為“人工智能光學(xué)”的報告中討論這一發(fā)展的影響。
新聞來源:訊石光通訊網(wǎng)
相關(guān)文章