芯片間以及芯片與內(nèi)存間通信的帶寬正成為現(xiàn)代計算系統(tǒng)的瓶頸。因此,提高系統(tǒng)組件間的吞吐量是重中之重。盡管為提高互連系統(tǒng)效率和開發(fā)更加復(fù)雜的通信協(xié)議做了許多工作,但對更高吞吐量的需求必然伴隨著散熱成本,因為這些模塊的功耗會增加。人工智能 (AI) 的最新進展正在推動這些迅速變化,包括從 112 Gbps-PAM4 過渡到 224 Gbps-PAM4 以及采用下一代 1.6T 模塊。
數(shù)據(jù)中心熱管理現(xiàn)狀
數(shù)據(jù)中心電子系統(tǒng)的熱管理目標是,在指定負載和條件下將組件溫度保持在安全運行范圍內(nèi)。這些溫度范圍是根據(jù)溫度與使用壽命的關(guān)系及其在現(xiàn)場的目標使用壽命確定的。其他運行方面(如電壓)和環(huán)境因素(如濕度或環(huán)境溫度波動)也會影響數(shù)據(jù)中心環(huán)境中零部件的使用壽命。
有效的熱管理策略應(yīng)考慮多種因素,包括功耗、功率密度及其空間分布,以及目標系統(tǒng)負載和運行條件的時間和瞬態(tài)特性。
保持更低的工作溫度可提高組件可靠性,延長使用壽命。更低的工作溫度還能降低系統(tǒng)的整體功耗。要確定系統(tǒng)的最佳工作點并保持能率比,必須在散熱方案更高的功率要求與電子元件總體功耗的降低之間取得平衡。
風冷的最新進展
多年來,空氣一直是電子系統(tǒng)的首選冷卻媒介。與液冷相比,風冷因其在低壓工作時的介電性質(zhì)、大多為惰性、易于應(yīng)用和較低的實施成本而備受青睞。近幾十年來,支持向電子系統(tǒng)輸送冷空氣和從機架收集熱空氣的基礎(chǔ)設(shè)施得到了很好的優(yōu)化。
在風冷系統(tǒng)中,光模塊正上方的氣流和模塊散熱器的策略性熱優(yōu)化——無論是平頂模塊 (QSFP-DD) 頂部的鰭片式散熱器還是集成散熱器 (OSFP)——都能確保高效散熱。在使用鰭片式散熱器的情況下,必須確保散熱器與模塊外殼之間良好的熱接觸,為熱量創(chuàng)造一個低熱阻的路徑。
要做到這一點,首先要優(yōu)化鰭片散熱器。過去,行業(yè)專注于將鋁擠壓散熱器更換為密度更高的拉鏈鰭片式/疊片式散熱器。然而,在未來更高功率的模塊中,可插拔模塊與鰭片式散熱器之間的熱阻將成為一個新的瓶頸。因此,必須特別要注意改善降低熱阻——例如在接觸面使用熱界面材料 (TIM)。
這些散熱器的設(shè)計涉及多個考慮因素,包括機械系統(tǒng)要求以及與系統(tǒng)氣流和壓力動態(tài)相關(guān)的熱性能?,F(xiàn)代散熱器必須針對這些客戶特定的邊界條件和系統(tǒng)環(huán)境進行優(yōu)化——適合所有應(yīng)用的標準散熱器選項已不復(fù)存在。
除了優(yōu)化散熱器之外,最大程度降低從散熱器到模塊的下游氣路的風阻也很重要。這包括在保持電磁干擾 (EMI) 屏蔽要求的前提下,對機架和連接器進行熱優(yōu)化,在上面增加通風孔從而可以通過最大程度降低風阻。
對于堆疊式機架配置,需要采用協(xié)同設(shè)計的方法,為將要放置在機架上的模塊提供優(yōu)化的散熱器設(shè)計。在協(xié)同設(shè)計中,需要模擬冷卻劑流,同時考慮刀片上的所有組件。必須進行全面的系統(tǒng)級分析,以確保所有模塊都能獲得足夠的氣流,并最大程度減少模塊之間的溫差。
液冷的崛起
盡管風冷很有效,但其冷卻能力也存在固有的限制。ASHRAE 的《液冷在主流數(shù)據(jù)中心的興起和擴張》(2021 年)建議,風冷系統(tǒng)每個芯片的功率限制約為 400 W,而開放計算項目 (OCP) 的《開放加速器模塊 (OAM) 設(shè)計規(guī)范修訂版 2.0》(2023 年)中提到,風冷系統(tǒng)的功率限制約為 600 W。不過,高端處理器最近的發(fā)展趨勢超過了這些限制。處理器這么高的功率需要使用液冷,這種冷卻方式可為主處理器提供更加高效、緊湊的解決方案。
這一趨勢為系統(tǒng)其他部分(如可插拔光模塊,其功率通常比主處理器低)的冷卻帶來了一個有意思的難題。這些組件仍然需要某種方式的主動冷卻。由于 1.6 T 光學(xué)元件的功率水平預(yù)計將高達 35 W,液冷成為了下一代可插拔光器件中的一個越來越受關(guān)注和討論的領(lǐng)域。
在風冷系統(tǒng)中,這些外圍組件將受益于為系統(tǒng)提供的冷卻氣流,這意味著主系統(tǒng)風扇可以提供足夠的氣流。在某些液冷系統(tǒng)中,系統(tǒng)是基于混合方法設(shè)計的,大功率組件 (ASIC/GPU) 采用液冷方法,而系統(tǒng)的其他部分則采用風冷方法。這些系統(tǒng)需要在機架或刀片上安裝風扇,以提供足夠的氣流。
另一種冷卻可插拔光模塊的方法是采用冷板系統(tǒng)來有效管理多個光模塊的溫度。這些系統(tǒng)利用冷板上的獨立浮動基座,確保與每個模塊(插在可能有不同公差疊加的端口上)都有足夠低的熱阻。使用該方法部署系統(tǒng)時,會在設(shè)計和制造上遇到重大難題,包括:
· 確保模塊之間均勻冷卻以及冷板中均勻的流量分布
· 平衡不同系統(tǒng)組件之間的壓降
· 控制制造復(fù)雜性和增加的裝配成本
· 在制造階段進行更加復(fù)雜的測試,以確保最佳性能和可靠性
· 盡管存在這些難題,但它們并非無法克服。事實上,Molex莫仕已經(jīng)在實際應(yīng)用中解決了這些難題。
光模塊冷卻的未來
對于下一代光模塊而言,一個非常重要的優(yōu)先考慮因素是熱流路徑的端到端優(yōu)化,可以最大程度減少從組件結(jié)點到冷卻媒介(空氣或液體)的阻力。這將包括:
· 優(yōu)化單個組件的電子封裝
· 確保在印刷電路板上和模塊內(nèi)部放置組件時考慮溫度影響
· 打造從組件到模塊表面的低熱阻路徑(例如,使用高熱導(dǎo)率墊片,使用 TIM 來改善接觸阻力,使用更高熱導(dǎo)率的模塊外殼)
· 改善模塊蓋的熱擴散,避免出現(xiàn)局部熱點,這會導(dǎo)致降低冷卻效率(例如,在模塊中使用銅塊和熱管)
· 同樣重要的是這些模塊熱特性分析方法的改變。傳統(tǒng)的模塊特性分析方法(使用普通的外殼溫度限制)會留下余量——對于更大功率的模塊來說,余量非常小。
下一代冷卻系統(tǒng)的發(fā)展之路
· 對數(shù)據(jù)中心里大功率光收發(fā)器進行更好冷卻的需求從未如此迫切。在網(wǎng)絡(luò)難以滿足飛漲的帶寬需求時,設(shè)計人員無法承擔讓這些不可或缺的組件過熱的后果。
· 我們已經(jīng)到了提高系統(tǒng)冷卻能力的成敗關(guān)頭,這推動了對性能驅(qū)動的熱創(chuàng)新的要求。伴隨著數(shù)據(jù)中心不斷努力應(yīng)對日益嚴峻的散熱難題,Molex莫仕始終走在創(chuàng)新的最前沿。
作為 OCP 及其冷卻環(huán)境項目的活躍參與者,Molex莫仕正在積極開發(fā)下一代冷卻技術(shù),以滿足數(shù)據(jù)中心日益增長的熱管理需求。相信 Molex莫仕能夠為數(shù)據(jù)中心架構(gòu)提供強大的動態(tài)解決方案,這些方案既具有韌性,又面向未來。
新聞來源:Molex莫仕連接器
相關(guān)文章