人妻夜夜爽天天爽三区麻豆AV网站,亚洲AV成人一区二区三区天堂,欧美人与动牲交欧美精品,亚洲AV无码一区东京热久久

您的位置：首頁(yè) > 產(chǎn)經(jīng) >

賽道Hyper | 英偉達(dá)超算機(jī)：定義AGI算力集群|環(huán)球快資訊

來源：華爾街見聞 ? 2023-06-13 16:56:14

英偉達(dá)創(chuàng)始人兼CEO黃仁勛，不但是個(gè)出色的技術(shù)工程師，也是位杰出的市場(chǎng)管理專家和營(yíng)銷大師。

(資料圖片僅供參考)

黃仁勛的營(yíng)銷才能，從其對(duì)GPU的定義可以窺視。原先，GPU只是一張顯卡，后來黃仁勛將服務(wù)器也稱為GPU。最近，“黃氏”GPU定義，已擴(kuò)展至CPU疊加GPU內(nèi)存算力集群。

英偉達(dá)最近發(fā)布的超級(jí)計(jì)算機(jī)DGX GH200，從參數(shù)上看，性能極為驚人，結(jié)構(gòu)也堪稱精巧。但是，從技術(shù)原理上看，DGX GH200原本很可能并非為AI集訓(xùn)所設(shè)計(jì)，其內(nèi)核Grace Hopper是決策型AI（為AI推薦系統(tǒng)所用）性質(zhì)。

從結(jié)構(gòu)設(shè)計(jì)上看，DGX GH200從決策型AI“轉(zhuǎn)型”到LLM方向，但其真正價(jià)值并非為L(zhǎng)LM定制，而是其可擴(kuò)展性、以及將CPU內(nèi)存與GPU內(nèi)存，通過NVLINK C2C組件整合起來的技術(shù)，從而實(shí)現(xiàn)黃仁勛將GPU的定義擴(kuò)展為超算集群的邏輯自洽。

至于真正的為L(zhǎng)LM定制的針對(duì)性綜合解決方案，黃仁勛還沒給出答案。

CPU+GPU=？

DGX GH200的核心是Grace Hopper（CPU+GPU）。每臺(tái)DGX GH200，都搭載了多達(dá)256個(gè)Grace Hopper。

黃仁勛將Grace Hopper稱為“superchip”（超級(jí)芯片），這很像是一種營(yíng)銷表達(dá)。

實(shí)際上，Grace是CPU，確實(shí)是為AI而生，但本身的技術(shù)特性不是高性能CPU算力，而是能耗控制。換句話說，Grace負(fù)責(zé)還過得去的算力性能；Hopper則是GPU，與印象中的英偉達(dá)GPU負(fù)責(zé)AI算力不同，“Grace Hopper”中的Hopper，負(fù)責(zé)的是散熱。

根據(jù)英偉達(dá)技術(shù)白皮書顯示，Hopper是英偉達(dá)基于Hopper架構(gòu)的GPU（即H100系列），而Grace則是英偉達(dá)自研的基于ARM架構(gòu)的高性能CPU。

這顆芯片的CPU核（core）型號(hào)是Arm的公版neoverse N2。根據(jù)英偉達(dá)在2021年發(fā)布Grace Hopper時(shí)的PPT信息，Grace是一款包含了76個(gè)CPU核的N2多核處理器。

通過LPDDR5X（內(nèi)存）通信接口，Grace接了高達(dá)512GB的內(nèi)存（實(shí)際480GB），內(nèi)存帶寬也達(dá)到546 GB/s；Hopper（GPU）則通過HBM3（顯存）接口接了最多96GB的顯存，帶寬可達(dá)3TB/s。

LPDDR，即Low Power Double Data Rate，中文全稱“低功耗雙倍數(shù)據(jù)速率”，是美國(guó)JEDEC固態(tài)技術(shù)協(xié)會(huì)（JEDEC Solid State Technology Association）面向低功耗內(nèi)存制定的通信標(biāo)準(zhǔn)。

LPDDR有時(shí)候也等同于Low Power Double Data Rate SDRAM，中文全稱“低功耗雙信道同步動(dòng)態(tài)隨機(jī)存取內(nèi)存”。通常，這以先進(jìn)封裝技術(shù)直接堆在CPU處理器上方，以低功耗和小體積著稱，是移動(dòng)應(yīng)用場(chǎng)景的主流內(nèi)存產(chǎn)品。

2019年2月，JEDEC發(fā)布JESD209-5，即LPDDR5低功耗內(nèi)存?zhèn)鬏斔俾剩ㄍㄐ牛?biāo)準(zhǔn)。相較于2014年發(fā)布的第一代LPDDR4標(biāo)準(zhǔn)，LPDDR5的I/O速度提升到6400 MT/s，實(shí)現(xiàn)翻番。

基于LPDDR5的性能基礎(chǔ)，LPDDR5X更進(jìn)一步：數(shù)據(jù)傳輸速率從6400Mbps增至8533Mbps，對(duì)于支持8533Mbps LPDDR5X內(nèi)存的移動(dòng)SoC，其峰值理論可用帶寬將進(jìn)一步增長(zhǎng)到68.26GB/s，從而賦予更廣泛的設(shè)備擁有更多基于AI和5G的功能。

Grace用了LPDDR5X，就其16GB的容量而言，即使用了8片，CPU的總?cè)萘恳仓挥?28GB，遠(yuǎn)遠(yuǎn)達(dá)不到?jīng)Q策AI所需要的存儲(chǔ)空間，更遑論對(duì)LLM的容量支持要求。但黃仁勛采用了新的結(jié)構(gòu)，也就是集成8顆Grace CPU，還將之互聯(lián)成一個(gè)Unified Memory。

這時(shí)，內(nèi)存容量就高達(dá)1TB（8*128G），等于用X86的2S結(jié)構(gòu)，相當(dāng)于512GB per Socket的1TB容量。

回到Grace Hopper超級(jí)芯片，其高達(dá)144TB的Memory（顯存）量，實(shí)際上是LPDDR5X的內(nèi)存疊加HBM3的顯存，即256組的CPU 480GB內(nèi)存（LPDDR5X）疊加GPU 96GB顯存（HBM3）。簡(jiǎn)單折算下，就是每個(gè)節(jié)點(diǎn)8組搭配，約3.75TB的CPU內(nèi)存加上768GB的顯存。

乍看上去，如此神一樣存在的存儲(chǔ)容量令人驚嘆。但實(shí)際上，Grace Hopper的整體容量，除了內(nèi)存還包括顯存，這是從所未見的結(jié)構(gòu)設(shè)計(jì)。但這種結(jié)構(gòu)忽略了CPU同樣令人驚奇的延遲。

這問題該怎么解決？若解決不了，以Grace Hopper為核心的DGX GH200，速度比蝸牛還慢，還怎么訓(xùn)練AI？

因此，杰出的技術(shù)工程師黃仁勛，在Grace Hopper中，還應(yīng)用了至關(guān)重要的組件“NVLink C2C”。這個(gè)組件的核心是NVLink通信協(xié)議，將Grace的CPU與Hopper的GPU之間傳輸數(shù)據(jù)量的帶寬，以900GB/s的帶寬速率聯(lián)系起來，遠(yuǎn)超常規(guī)的64GB/s帶寬速率。

這就是黃仁勛敢于將LPDDR5X內(nèi)存的CPU容量算到DGX GH200超算機(jī)整體存儲(chǔ)規(guī)格的底氣。雖然疊加高容量CPU內(nèi)存會(huì)帶來超級(jí)延遲的不利后果，但GPU對(duì)延遲并不敏感，通過以NVLINK通信協(xié)議為核心的NVLINK C2C組件，將CPU的內(nèi)存變成了GPU內(nèi)存，以此消除高容量CPU內(nèi)存帶來的延遲。

這種結(jié)構(gòu)和部件設(shè)計(jì)，也是DGX GH200超算機(jī)引以為傲的可擴(kuò)展性特征。

價(jià)值和不足

DGX GH200超算機(jī)的性能取決于存儲(chǔ)空間的大小。144TB還能擴(kuò)展嗎？當(dāng)然可以。這可通過將Grace Hopper與英偉達(dá)Bluefield DPU的接口連接InfiniBand，這樣就可進(jìn)一步擴(kuò)展到更大的規(guī)模，從而實(shí)現(xiàn)更高性能的計(jì)算。

雖然看上去有144TB超級(jí)內(nèi)存空間，900GB/s的傳輸速率也相當(dāng)牛逼，但平均下來每組Grace Hopper的帶寬也就200GB/s，與144TB共享顯存帶寬差太遠(yuǎn)。

總體來說，對(duì)DGX GH200超算機(jī)的性能來說，Grace Hopper芯片組的結(jié)構(gòu)設(shè)計(jì)是關(guān)鍵，而英偉達(dá)的NVLink協(xié)議具有的超高性能數(shù)據(jù)互聯(lián)能力是關(guān)鍵中的關(guān)鍵，核心中的核心。通過提供高達(dá)900GB/s的帶寬并且提供一致性接口，Grace Hopper實(shí)現(xiàn)強(qiáng)悍的可擴(kuò)展性。

Grace Hopper中CPU與其他高性能服務(wù)器端ARM CPU的區(qū)別，也許就是對(duì)于NVLink接口的支持，而這也成了Grace Hopper的最顯著亮點(diǎn)。

雖然英偉達(dá)發(fā)布的DGX GH200超算機(jī)，其內(nèi)核Grace Hopper的結(jié)構(gòu)設(shè)計(jì)和軟件超高速一致性內(nèi)存接口NVLink的奇思妙想，并非是對(duì)AGI做的針對(duì)性整體解決方案。但是，黃仁勛的技術(shù)和結(jié)構(gòu)設(shè)計(jì)能力肌肉秀，真正的價(jià)值是對(duì)處于AI生成式技術(shù)和應(yīng)用階段，對(duì)具有超強(qiáng)性能的算力集群產(chǎn)品做出符合AGI階段的標(biāo)準(zhǔn)定義。

這里可能需要簡(jiǎn)單解釋下為什么DGX GH200超算機(jī)不是為AGI做出的針對(duì)性解決方案，而是主要面向決策式傳統(tǒng)AI的推薦系統(tǒng)。

首先，DGX GH200超算機(jī)的核心結(jié)構(gòu)Grace Hopper芯片組發(fā)布于2021年。那時(shí)雖然AGI也在迭代中，但遠(yuǎn)遠(yuǎn)沒有像2022年12月OpenAI發(fā)布的ChatGPT-3.5這種現(xiàn)象級(jí)應(yīng)用帶來的轟動(dòng)效應(yīng)，因而也沒有像現(xiàn)在這樣全球范圍內(nèi)的廣泛關(guān)注度。

其次，從技術(shù)原理看，傳統(tǒng)AI決策型推薦系統(tǒng)的特點(diǎn)是內(nèi)存占用大，但計(jì)算數(shù)據(jù)要轉(zhuǎn)換的熱數(shù)據(jù)（指頻繁訪問的在線類Data）并不多。因此，通行的做法是，通過系統(tǒng)設(shè)計(jì)，在CPU內(nèi)存中臨時(shí)存放熱數(shù)據(jù)，再以GPU側(cè)的HMB顯存做cache并導(dǎo)入熱數(shù)據(jù)，對(duì)帶寬和CPU內(nèi)存速度要求不高。

大模型的數(shù)據(jù)轉(zhuǎn)移特征是什么？?jī)?nèi)存占用也不小，但每次計(jì)算來回流動(dòng)的基本是熱數(shù)據(jù)，少有數(shù)據(jù)集之類的冷數(shù)據(jù)。所以就兩難，若選擇將海量熱數(shù)據(jù)放到LPDDRX5，帶寬還是有點(diǎn)不夠（畢竟每組Grace Hopper帶寬也只有200GB/s）；若放冷數(shù)據(jù)，成本又太高。

這里還有個(gè)問題，就是維護(hù)成本極高。Grace Hopper就物理形態(tài)看，CPU和GPU還各自獨(dú)立，這兩種芯片互聯(lián)使用的是PCB板上的走線。在技術(shù)邏輯角度，這兩種物理芯片的存儲(chǔ)空間通過NVLink C2C組件和NVLink協(xié)議，被集成為一個(gè)整體。

因此，高度集成的Grace Hopper，但凡壞一塊LPDDR5X，整個(gè)芯片組就要報(bào)廢。這樣的維護(hù)成本，除了巨頭比如微軟和谷歌這種不差錢的公司，其他公司都難以承受。

綜合來說，Grace Hopper的LLM應(yīng)用，在DGX GH200超算機(jī)的技術(shù)叢集中，并沒有顯現(xiàn)出驚艷的亮點(diǎn)；其結(jié)構(gòu)設(shè)計(jì)確實(shí)表現(xiàn)出色，但這很像是以LLM需求所做的微調(diào)。因?yàn)檫@個(gè)結(jié)構(gòu)，發(fā)布于2021年，那時(shí)LLM應(yīng)用方向也還并不向今日這樣如此明確。

風(fēng)險(xiǎn)提示及免責(zé)條款市場(chǎng)有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議，也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資，責(zé)任自負(fù)。

關(guān)鍵詞：