為什么說(shuō)液體冷卻是未來(lái)AI發(fā)展的一個(gè)關(guān)鍵點(diǎn)？

來(lái)源：揚(yáng)子晚報(bào) | 時(shí)間：2022-04-02 05:29:23

在過(guò)去幾年中，大規(guī)模人工智能或機(jī)器學(xué)習(xí)的限制因素首先是硬件能力，其次是復(fù)雜軟件框架的可擴(kuò)展性。最后一個(gè)限制與計(jì)算組件的關(guān)系不大，而與冷卻處理器、加速器和存儲(chǔ)設(shè)備有關(guān)。而隨著對(duì)計(jì)算需求的持續(xù)增長(zhǎng)，以及對(duì)削減電力成本，降低碳排放的需要，可能意味著我們要對(duì)計(jì)算系統(tǒng)冷卻方式重新思考。

《The Next Platform》在近日的一篇報(bào)道中指出，液體冷卻是未來(lái)人工智能發(fā)展的下一個(gè)關(guān)鍵點(diǎn)。其認(rèn)為，之所以沒(méi)有更廣泛地討論這一點(diǎn)，是因?yàn)閿?shù)據(jù)中心已經(jīng)具備充足的冷卻能力，通常配備空調(diào)機(jī)組和標(biāo)準(zhǔn)的冷通道、熱通道實(shí)施方案。對(duì)于需要一個(gè)或兩個(gè)CPU的一般企業(yè)應(yīng)用程序，這是可以接受的。

然而，AI訓(xùn)練系統(tǒng)不是兩個(gè)CPU，而是至少有兩個(gè)高端CPU和額外的四到八個(gè) GPU。功耗從普通企業(yè)級(jí)服務(wù)器的500瓦到700瓦，到單個(gè)AI訓(xùn)練節(jié)點(diǎn)的2500瓦到4500瓦之間。

想象一下這樣的功耗下產(chǎn)生的熱量，然后想象一個(gè)空調(diào)裝置試圖用冷空氣冷卻它。對(duì)于這種每機(jī)架的計(jì)算和熱量密度，有一點(diǎn)很清楚，那就是沒(méi)有辦法吹出足夠的空氣來(lái)充分冷卻地球上一些最昂貴、高性能的服務(wù)器設(shè)備。這會(huì)導(dǎo)致計(jì)算元素受到限制，或在極端情況下導(dǎo)致關(guān)閉。

同時(shí)，空氣是一個(gè)糟糕的熱導(dǎo)體，比如在寒冷的冬天，人們會(huì)覺(jué)得裸露在室外的金屬塊比空氣更寒冷，這是因?yàn)榻饘偈橇己玫臒釋?dǎo)體，它比空氣從你手中帶走的熱量要多。同時(shí)，相比水來(lái)說(shuō)，空氣也無(wú)法容納大量的熱。

這時(shí)就要考慮另一個(gè)因素：服務(wù)器機(jī)架密度。

疫情期間，由于企業(yè)居家辦公、學(xué)校遠(yuǎn)程教育及“健康碼”等大量應(yīng)用，數(shù)據(jù)需求量暴增。據(jù)《Wealth Management》的報(bào)道，數(shù)據(jù)中心的機(jī)房需求處于歷史最高水平，最大化密度的需求正在推動(dòng)新的服務(wù)器創(chuàng)新，但冷卻只能通過(guò)在機(jī)架（可以駐留更多系統(tǒng)的地方）留出空隙來(lái)讓空氣保持跟上。在這些情況下，空氣冷卻不足以完成任務(wù)，同時(shí)會(huì)導(dǎo)致每個(gè)機(jī)架的計(jì)算量減少，服務(wù)器機(jī)房空間浪費(fèi)更多。

對(duì)于在雙CPU服務(wù)器上具有單核作業(yè)的普通企業(yè)系統(tǒng)，問(wèn)題可能不會(huì)很快復(fù)雜化。但是對(duì)于密集的AI訓(xùn)練集群，需要大量的能量來(lái)引入冷空氣，在后端捕獲熱量，并將其恢復(fù)到合理的溫度。這種消耗遠(yuǎn)遠(yuǎn)超出了為系統(tǒng)本身供電所需的消耗。

那么液體冷卻如何呢？聯(lián)想 HPC（High Performance Computing，高性能計(jì)算）和AI歐洲、中東和非洲地區(qū)總監(jiān)Noam Rosen解釋道，“當(dāng)你使用溫水、室溫水來(lái)散熱來(lái)冷卻組件時(shí)，你不需要冷卻任何東西，無(wú)需投入能源來(lái)降低水溫。當(dāng)你獲得進(jìn)行大規(guī)模AI訓(xùn)練的國(guó)家實(shí)驗(yàn)室和數(shù)據(jù)中心的節(jié)點(diǎn)數(shù)時(shí)，這將變得非常重要?！?/p>

Rosen在《NLP中深度學(xué)習(xí)的能量和政策考慮因素》（Energy and Policy Considerations for Deep Learning in NLP）中，通過(guò)對(duì)幾種常見(jiàn)大型AI模型的訓(xùn)練進(jìn)行生命周期評(píng)估，指出定量細(xì)節(jié)以比較一般企業(yè)機(jī)架級(jí)電源需求與AI訓(xùn)練所需的電源需求。他們檢查了自然語(yǔ)言處理(NLP)的模型訓(xùn)練過(guò)程，發(fā)現(xiàn)NLP訓(xùn)練過(guò)程可以排放數(shù)百噸碳，相當(dāng)于一輛普通汽車(chē)整個(gè)壽命周期排放量的近五倍。

“從頭開(kāi)始訓(xùn)練新模型或?qū)⒛Ｐ蛻?yīng)用于新數(shù)據(jù)集時(shí)，由于調(diào)整現(xiàn)有模型所需的持續(xù)時(shí)間和計(jì)算能力，該過(guò)程會(huì)排放更多的碳。因此，研究人員建議行業(yè)和企業(yè)齊心協(xié)力，使用更高效、運(yùn)行所需能源更少的硬件。”Rosen表示。

Rosen具體比較了溫水冷卻與空氣冷卻，“今天，可以在一個(gè)機(jī)架上安裝一百多個(gè)Nvidia A100 GPU，但唯一的方法是用溫水冷卻。相同的密度在風(fēng)冷機(jī)架中是不可能的，因?yàn)樗锌詹宀鄱伎梢宰尶諝饫鋮s組件，即便如此，它也可能無(wú)法解決那么多GPU產(chǎn)生的熱量?！?/p>

根據(jù)服務(wù)器配置，溫水冷卻可以帶走85%到95%的熱量。Rosen解釋道，由于水的允許入口溫度達(dá)45°C，在許多情況下，不需要耗能的冷水機(jī)，這意味著更大的節(jié)約、更低的總成本和更少的碳排放。

用水來(lái)冷卻并不新鮮，它在大型主機(jī)業(yè)務(wù)中的使用已經(jīng)歷時(shí)幾十年。但隨著大型主機(jī)在數(shù)據(jù)中心中的應(yīng)用慢慢減少，水冷也隨之被淘汰。但目前，由于空氣已經(jīng)不足以冷卻高功率密度設(shè)備，水或者說(shuō)是液體冷卻再次被提起，并被視為未來(lái)冷卻數(shù)據(jù)中心的關(guān)鍵。澎湃新聞?dòng)浾?邵文

標(biāo)簽：為什么說(shuō)液體冷卻是未來(lái)AI發(fā)展的一個(gè)關(guān)鍵點(diǎn)