在過(guò)去幾年中,大規(guī)模人工智能或機(jī)器學(xué)習(xí)的限制因素首先是硬件能力,其次是復(fù)雜軟件框架的可擴(kuò)展性。最后一個(gè)限制與計(jì)算組件的關(guān)系不大,而與冷卻處理器、加速器和存儲(chǔ)設(shè)備有關(guān)。而隨著對(duì)計(jì)算需求的持續(xù)增長(zhǎng),以及對(duì)削減電力成本,降低碳排放的需要,可能意味著我們要對(duì)計(jì)算系統(tǒng)冷卻方式重新思考。
《The Next Platform》在近日的一篇報(bào)道中指出,液體冷卻是未來(lái)人工智能發(fā)展的下一個(gè)關(guān)鍵點(diǎn)。其認(rèn)為,之所以沒(méi)有更廣泛地討論這一點(diǎn),是因?yàn)閿?shù)據(jù)中心已經(jīng)具備充足的冷卻能力,通常配備空調(diào)機(jī)組和標(biāo)準(zhǔn)的冷通道、熱通道實(shí)施方案。對(duì)于需要一個(gè)或兩個(gè)CPU的一般企業(yè)應(yīng)用程序,這是可以接受的。
然而,AI訓(xùn)練系統(tǒng)不是兩個(gè)CPU,而是至少有兩個(gè)高端CPU和額外的四到八個(gè) GPU。功耗從普通企業(yè)級(jí)服務(wù)器的500瓦到700瓦,到單個(gè)AI訓(xùn)練節(jié)點(diǎn)的2500瓦到4500瓦之間。
想象一下這樣的功耗下產(chǎn)生的熱量,然后想象一個(gè)空調(diào)裝置試圖用冷空氣冷卻它。對(duì)于這種每機(jī)架的計(jì)算和熱量密度,有一點(diǎn)很清楚,那就是沒(méi)有辦法吹出足夠的空氣來(lái)充分冷卻地球上一些最昂貴、高性能的服務(wù)器設(shè)備。這會(huì)導(dǎo)致計(jì)算元素受到限制,或在極端情況下導(dǎo)致關(guān)閉。
同時(shí),空氣是一個(gè)糟糕的熱導(dǎo)體,比如在寒冷的冬天,人們會(huì)覺(jué)得裸露在室外的金屬塊比空氣更寒冷,這是因?yàn)榻饘偈橇己玫臒釋?dǎo)體,它比空氣從你手中帶走的熱量要多。同時(shí),相比水來(lái)說(shuō),空氣也無(wú)法容納大量的熱。
這時(shí)就要考慮另一個(gè)因素:服務(wù)器機(jī)架密度。
疫情期間,由于企業(yè)居家辦公、學(xué)校遠(yuǎn)程教育及“健康碼”等大量應(yīng)用,數(shù)據(jù)需求量暴增。據(jù)《Wealth Management》的報(bào)道,數(shù)據(jù)中心的機(jī)房需求處于歷史最高水平,最大化密度的需求正在推動(dòng)新的服務(wù)器創(chuàng)新,但冷卻只能通過(guò)在機(jī)架(可以駐留更多系統(tǒng)的地方)留出空隙來(lái)讓空氣保持跟上。在這些情況下,空氣冷卻不足以完成任務(wù),同時(shí)會(huì)導(dǎo)致每個(gè)機(jī)架的計(jì)算量減少,服務(wù)器機(jī)房空間浪費(fèi)更多。
對(duì)于在雙CPU服務(wù)器上具有單核作業(yè)的普通企業(yè)系統(tǒng),問(wèn)題可能不會(huì)很快復(fù)雜化。但是對(duì)于密集的AI訓(xùn)練集群,需要大量的能量來(lái)引入冷空氣,在后端捕獲熱量,并將其恢復(fù)到合理的溫度。這種消耗遠(yuǎn)遠(yuǎn)超出了為系統(tǒng)本身供電所需的消耗。
那么液體冷卻如何呢?聯(lián)想 HPC(High Performance Computing,高性能計(jì)算)和AI歐洲、中東和非洲地區(qū)總監(jiān)Noam Rosen解釋道,“當(dāng)你使用溫水、室溫水來(lái)散熱來(lái)冷卻組件時(shí),你不需要冷卻任何東西,無(wú)需投入能源來(lái)降低水溫。當(dāng)你獲得進(jìn)行大規(guī)模AI訓(xùn)練的國(guó)家實(shí)驗(yàn)室和數(shù)據(jù)中心的節(jié)點(diǎn)數(shù)時(shí),這將變得非常重要?!?/p>
Rosen在《NLP中深度學(xué)習(xí)的能量和政策考慮因素》(Energy and Policy Considerations for Deep Learning in NLP)中,通過(guò)對(duì)幾種常見(jiàn)大型AI模型的訓(xùn)練進(jìn)行生命周期評(píng)估,指出定量細(xì)節(jié)以比較一般企業(yè)機(jī)架級(jí)電源需求與AI訓(xùn)練所需的電源需求。他們檢查了自然語(yǔ)言處理(NLP)的模型訓(xùn)練過(guò)程,發(fā)現(xiàn)NLP訓(xùn)練過(guò)程可以排放數(shù)百噸碳,相當(dāng)于一輛普通汽車(chē)整個(gè)壽命周期排放量的近五倍。
“從頭開(kāi)始訓(xùn)練新模型或?qū)⒛P蛻?yīng)用于新數(shù)據(jù)集時(shí),由于調(diào)整現(xiàn)有模型所需的持續(xù)時(shí)間和計(jì)算能力,該過(guò)程會(huì)排放更多的碳。因此,研究人員建議行業(yè)和企業(yè)齊心協(xié)力,使用更高效、運(yùn)行所需能源更少的硬件。”Rosen表示。
Rosen具體比較了溫水冷卻與空氣冷卻,“今天,可以在一個(gè)機(jī)架上安裝一百多個(gè)Nvidia A100 GPU,但唯一的方法是用溫水冷卻。相同的密度在風(fēng)冷機(jī)架中是不可能的,因?yàn)樗锌詹宀鄱伎梢宰尶諝饫鋮s組件,即便如此,它也可能無(wú)法解決那么多GPU產(chǎn)生的熱量?!?/p>
根據(jù)服務(wù)器配置,溫水冷卻可以帶走85%到95%的熱量。Rosen解釋道,由于水的允許入口溫度達(dá)45°C,在許多情況下,不需要耗能的冷水機(jī),這意味著更大的節(jié)約、更低的總成本和更少的碳排放。
用水來(lái)冷卻并不新鮮,它在大型主機(jī)業(yè)務(wù)中的使用已經(jīng)歷時(shí)幾十年。但隨著大型主機(jī)在數(shù)據(jù)中心中的應(yīng)用慢慢減少,水冷也隨之被淘汰。但目前,由于空氣已經(jīng)不足以冷卻高功率密度設(shè)備,水或者說(shuō)是液體冷卻再次被提起,并被視為未來(lái)冷卻數(shù)據(jù)中心的關(guān)鍵。澎湃新聞?dòng)浾?邵文