ICC訊 東數(shù)西算的提出,不僅是為了建立一個(gè)一體化的數(shù)據(jù)體系,也是一個(gè)綠色節(jié)能,促進(jìn)碳達(dá)峰、碳中和等目標(biāo)實(shí)現(xiàn)的手段。畢竟在西部地區(qū)可以充分發(fā)揮可再生能源和環(huán)境上的優(yōu)勢(shì),同時(shí)減少人口密度高地區(qū)的用電緊張。
但東數(shù)西算,以及類似的東數(shù)西訓(xùn)、東云西庫等概念和政策,都只是針對(duì)一些對(duì)時(shí)延并不敏感的應(yīng)用來說的。然而對(duì)于一些要求低時(shí)延、大存儲(chǔ)容量和大算力的實(shí)時(shí)應(yīng)用來說,比如自動(dòng)駕駛、工業(yè)物聯(lián)網(wǎng)、邊緣計(jì)算等,仍然需要本地數(shù)據(jù)中心的支持。但在各大城市紛紛對(duì)數(shù)據(jù)中心的規(guī)模加以限制下,如何讓中小型數(shù)據(jù)中心降本增效就成了關(guān)鍵問題。
數(shù)據(jù)中心是如何成為耗電大戶的?
雖然不同的統(tǒng)計(jì)口徑給出的數(shù)據(jù)多有不同,但在中國國內(nèi),數(shù)據(jù)中心用電量大概在全社會(huì)耗電總量的1.5%到3%左右,可以說是名副其實(shí)的“國家電網(wǎng)戰(zhàn)略合作伙伴”了。隨著現(xiàn)在各行各業(yè)對(duì)于流量和算力的需求繼續(xù)上漲,未來這個(gè)占比必然會(huì)持續(xù)走高。
那么究竟是什么讓數(shù)據(jù)中心有著如此龐大的耗電量呢?原因有不少,其中之一是存在于各大數(shù)據(jù)中心的“僵尸”服務(wù)器。利用率是每個(gè)數(shù)據(jù)中心都不得不面臨的問題,由于數(shù)據(jù)中心本身追求大容量,尤其是對(duì)于云服務(wù)廠商的數(shù)據(jù)中心來說,有不少服務(wù)器都是處于“閑置”狀態(tài)的。
再加上如今數(shù)據(jù)中心的架構(gòu)已經(jīng)實(shí)現(xiàn)了解耦,利用率最高的反倒是網(wǎng)絡(luò)設(shè)備,其次是存儲(chǔ)設(shè)備,利用率最低的反倒是處理器。這些“僵尸”服務(wù)器的存在并不會(huì)對(duì)其數(shù)據(jù)中心的運(yùn)營造成任何不利影響,但它們?cè)陂e置的情況下仍會(huì)占用電源、空間和散熱資源。
雖說現(xiàn)在通過虛擬化等手段已經(jīng)提高了服務(wù)器的利用率,但仍有比較大的提升空間。要知道,從2017年到2022年,國內(nèi)和地方政策中對(duì)大型數(shù)據(jù)中心的PUE要求就從1.5提升至了1.25,有不少新建的數(shù)據(jù)中心甚至做到了1.1的PUE。所以未來盡管耗電大戶的身份雖然還是不會(huì)變,但數(shù)據(jù)中心必須想盡辦法去提升能效比。
數(shù)據(jù)中心降本增效的解決思路
其實(shí)數(shù)據(jù)中心要想在實(shí)現(xiàn)節(jié)能的同時(shí),保持性能和容量的增長,方法也相當(dāng)直接,那就是升級(jí)。升級(jí)新的冷卻系統(tǒng)、變壓設(shè)備、處理器芯片等,比如取締或改造升級(jí)老數(shù)據(jù)中心,給IT設(shè)備、供電系統(tǒng)、冷卻系統(tǒng)都進(jìn)行徹頭徹尾的升級(jí)。
就拿處理器芯片的升級(jí)來說,雖說數(shù)據(jù)中心硬件換代的周期并不算短,但要想滿足日益增長的算力需求,就不得不用上最新的CPU、GPU和一眾AI加速器。可為了想追求極致的能效比,不少數(shù)據(jù)中心都開始選擇基于Arm架構(gòu)的服務(wù)器,而不再是傳統(tǒng)的x86服務(wù)器,隨著Arm在服務(wù)器軟件生態(tài)上慢慢成熟,這一趨勢(shì)會(huì)變得愈發(fā)明顯。
另一種方式就是用上更高效的服務(wù)器電源,隨著第三代半導(dǎo)體材料的出現(xiàn),消費(fèi)級(jí)電源產(chǎn)品的效率已經(jīng)提升了上來,而服務(wù)器電源也能享受這一優(yōu)勢(shì)。尤其是基于碳化硅的服務(wù)器電源,在應(yīng)對(duì)高壓和大功率的場(chǎng)景上,也能輕松達(dá)到鈦金級(jí)別的效率。
冷卻系統(tǒng)同樣有著極大的降本增效空間,也更加適合“因地制宜”。目前不少數(shù)據(jù)中心都在選用液冷的方式散熱,因?yàn)檫@種方式散熱效率高,可以減少傳統(tǒng)風(fēng)冷帶來的電力消耗。以中科曙光的全浸式液冷服務(wù)器為例,就可以講PUE值做到趨近于1.0的理論極限。但也有的數(shù)據(jù)中心為了進(jìn)一步節(jié)省水資源,也想出了新的空氣冷卻系統(tǒng)。
AWS自然空氣冷卻系統(tǒng) / 亞馬遜
比如亞馬遜的AWS數(shù)據(jù)中心就主要以蒸發(fā)冷卻為主,在炎熱的天氣下,熱空氣經(jīng)過過濾器和消耗少量水資源的潤濕冷卻墊,蒸發(fā)產(chǎn)生涼爽的空氣來散熱。而亞馬遜在愛爾蘭和瑞典的AWS數(shù)據(jù)中心,則是靠的自然空氣的過濾冷卻,因?yàn)闅鉁剌^低的原因,它們一年之中有95%都不是靠水來冷卻服務(wù)器的。
小結(jié)
我們通常將數(shù)據(jù)中心看做是“算力工廠”,但正如工廠的污染排放監(jiān)測(cè)一樣,數(shù)據(jù)中心的能效也需要持續(xù)關(guān)注。在各種政策規(guī)定下,雖然不少數(shù)據(jù)中心在建成之際就已經(jīng)滿足了PUE目標(biāo),但對(duì)于從不停轉(zhuǎn)的數(shù)據(jù)中心來說,在降本增效的同時(shí),也需要持續(xù)公開這些數(shù)據(jù),確保不會(huì)因?yàn)樵O(shè)備老化、負(fù)載增加等原因偏離原本的PUE。