2017年6月22日, 加州訊,世界領(lǐng)先的高性能計(jì)算、數(shù)據(jù)中心端到端互連方案提供商Mellanox(納斯達(dá)克交易所代碼: MLNX)今日宣布,目前已有大量先進(jìn)的深度學(xué)習(xí)框架(如TensorFlow™、Caffe2、Microsoft Cognitive Toolkit 和百度 PaddlePaddle)借助Mellanox的智能卸載功能,為多臺(tái)人工智能服務(wù)器提供世界領(lǐng)先的性能和近線性擴(kuò)展能力。Mellanox的RDMA和網(wǎng)絡(luò)內(nèi)計(jì)算卸載以及 NVIDIA® GPUDirect™ 是幫助用戶最大限度發(fā)揮其應(yīng)用性能和系統(tǒng)效率的關(guān)鍵技術(shù)。
如今,很多行業(yè)和研究小組都開始利用深度學(xué)習(xí)技術(shù)解決大數(shù)據(jù)難題,如自然語(yǔ)言處理、語(yǔ)音識(shí)別、計(jì)算機(jī)視覺、醫(yī)療保健、生命科學(xué)、金融服務(wù)等等。全球最先進(jìn)的機(jī)器學(xué)習(xí)平臺(tái)采用Mellanox以數(shù)據(jù)為核心的高效卸載架構(gòu),將引領(lǐng)這些行業(yè)邁入高性能和高可擴(kuò)展性的新時(shí)代。
TensorFlow 是一個(gè)開源軟件庫(kù),最初由 Google 機(jī)器智能研究團(tuán)隊(duì)的研究人員和工程師開發(fā)。通過(guò)加入 RDMA 技術(shù)來(lái)取代傳統(tǒng) TCP,TensorFlow 的節(jié)點(diǎn)間數(shù)據(jù)交換性能提升了1 倍,可實(shí)現(xiàn)更快的圖像處理。
百度的PaddlePaddle(并行分布式深度學(xué)習(xí))是一個(gè)靈活、可擴(kuò)展的深度學(xué)習(xí)平臺(tái)。PaddlePaddle 支持多種神經(jīng)網(wǎng)絡(luò)體系架構(gòu)和優(yōu)化算法,因此可以輕松使用大量CPU和GPU來(lái)加速訓(xùn)練。通過(guò)RDMA技術(shù),PaddlePaddle可實(shí)現(xiàn)高吞吐量和高性能,借助NVIDIA 和 Mellanox聯(lián)合架構(gòu)更先進(jìn)的加速功能,能夠?qū)⑸疃葘W(xué)習(xí)的訓(xùn)練速度提高1倍。
“先進(jìn)的深度神經(jīng)網(wǎng)絡(luò)需要有智能互連方案作為支撐,可使其擴(kuò)展到多個(gè)節(jié)點(diǎn),并且獲得最快的數(shù)據(jù)傳輸速度,從而提高算法效率并縮短訓(xùn)練時(shí)間” ,Mellanox公司市場(chǎng)部副總裁 Gilad Shainer 表示。 “借助Mellanox的技術(shù)和解決方案,機(jī)器集群現(xiàn)在能夠以最佳的學(xué)習(xí)速度、準(zhǔn)確性和擴(kuò)展能力,突破最苛刻的認(rèn)知計(jì)算應(yīng)用極限。”
“深度學(xué)習(xí)應(yīng)用的開發(fā)人員可以采用優(yōu)化框架和 NVIDIA 即將推出的 NCCL 2.0 庫(kù),NCCL 2.0實(shí)現(xiàn)了對(duì) InfiniBand的原生支持,多節(jié)點(diǎn)通信時(shí)會(huì)自動(dòng)選擇 GPUDirect RDMA技術(shù),或在可用時(shí)為節(jié)點(diǎn)間通信選擇NVIDIA NVLink” ,NVIDIA公司平臺(tái)聯(lián)盟部總監(jiān)Duncan Poole 表示。 “NVIDIA NVLink技術(shù)用于基于 Pascal 的 Tesla P100系統(tǒng),該系統(tǒng)包括配有四塊Mellanox ConnectX®-4 100 Gb/s網(wǎng)卡的 NVIDIA DGX-1人工智能超級(jí)計(jì)算機(jī)。這樣一來(lái),開發(fā)人員可以專注于創(chuàng)建新的算法和軟件功能,而不再需要對(duì)低層級(jí)通信集合進(jìn)行性能調(diào)優(yōu)。”