8月,英偉達(dá)發(fā)布了二季度財(cái)報(bào),財(cái)報(bào)顯示,公司二季度營(yíng)收135億美元,創(chuàng)季度新高且同比增長(zhǎng)超100%。公司預(yù)期三季度該數(shù)字將達(dá)到160億美元。與此同時(shí),高端芯片的強(qiáng)勁需求將公司毛利率大幅提升至71.2%,二季度凈利潤(rùn)61.8億美元,同比漲幅達(dá)到驚人的843%。
這是什么概念呢?相當(dāng)于英偉達(dá)在三個(gè)月時(shí)間里多賺了六七十億美元,而且之后每個(gè)季度都有望入賬這么多錢,即使放在群英薈萃的硅谷,這樣的成績(jī)也足以讓大家感到驚訝了。
而營(yíng)收和盈利背后,是英偉達(dá)顯卡被瘋搶的盛況,即使英偉達(dá)今年能預(yù)計(jì)出貨50萬塊H100顯卡,依舊沒有滿足AI市場(chǎng)的急速擴(kuò)張的需求,其未來計(jì)劃將H100顯卡的產(chǎn)量至少提高兩倍,2024年該顯卡的預(yù)計(jì)出貨量會(huì)達(dá)到150萬至200萬顆左右。
那么,到底是誰在搶這幾十萬乃至上百萬的顯卡呢?
我們或許可以從最近的新聞里一窺端倪,8月29日,總耗資三億美元的特斯拉GPU集群正式上線,該集群集成了10000 塊英偉達(dá)的H100 GPU,其主要用途就是幫助訓(xùn)練特斯拉的無人駕駛系統(tǒng)FSD。
作為構(gòu)筑該集群最重要的一部分,英偉達(dá)H100于 2022 年末推出,售價(jià)約4萬美元,比 前代A100 快 30 倍,AI 訓(xùn)練速度快 9 倍,根據(jù)英偉達(dá)的介紹,H100 專為視頻訓(xùn)練等圖形密集型工作負(fù)載而設(shè)計(jì),且易于擴(kuò)展,其擁有18,432 個(gè) CUDA 核心, 640 個(gè)張量核心 ,80 個(gè)流式多處理器 (SM) ,與 A100 相比,H100的高性能計(jì)算速度快 5 倍以上。
而由10,000 塊H100構(gòu)筑的GPU集群將提供 340 FP64 PFLOPS 的峰值性能,為人工智能應(yīng)用提供 39.58 INT8 ExaFLOPS 的峰值性能,峰值性能上已經(jīng)超越了世界第四高性能超級(jí)計(jì)算機(jī) Leonardo 所提供的 304 FP64 PFLOPS。
而英偉達(dá)第二季度的財(cái)報(bào),正是像特斯拉這樣的公司做出的貢獻(xiàn),他們投入巨資打造超大型GPU集群,一出手就是購入上萬張顯卡,讓臺(tái)積電開足了馬力生產(chǎn)都趕不上需求的變化。
微軟
時(shí)間回到5 年前,OpenAI 向微軟提出了一個(gè)大膽的想法——它可以構(gòu)建一套人工智能系統(tǒng),永遠(yuǎn)改變?nèi)祟惻c計(jì)算機(jī)之間的交互方式。
但是這套人工智能系統(tǒng)并非憑空得來,它需要建立在強(qiáng)悍算力的基礎(chǔ)之上,而且光有一套在背后提供助力的基礎(chǔ)設(shè)施還不夠,這還不是一錘子買賣,OpenAI必須能長(zhǎng)期穩(wěn)定地運(yùn)行這套系統(tǒng),簡(jiǎn)而言之,就是要不斷地砸錢。
當(dāng)時(shí),微軟 Azure 高性能計(jì)算和人工智能產(chǎn)品負(fù)責(zé)人 Nidhi Chappell 表示:"我們從研究中了解到的一件事是,模型越大,你擁有的數(shù)據(jù)越多,你能訓(xùn)練的時(shí)間越長(zhǎng),模型的準(zhǔn)確性就越好。"
為了力挺OpenAI的人工智能,2019年,微軟宣布與OpenAI建立合作關(guān)系,包括投資10億美元以及在Azure中建立一個(gè)可以訓(xùn)練和運(yùn)行高級(jí)AI模型的計(jì)算平臺(tái),微軟將對(duì)Azure進(jìn)行的改進(jìn),以構(gòu)建超級(jí)計(jì)算技術(shù)。
在Build 2020活動(dòng)上,微軟宣布了這次合作的結(jié)果。微軟與OpenAI合作,并專門為OpenAI構(gòu)建了一臺(tái)新的超級(jí)計(jì)算機(jī),這臺(tái)新超算包括了超過28.5萬個(gè)CPU核心,1萬塊GPU,每個(gè)GPU服務(wù)器的網(wǎng)絡(luò)連接能力為400 gigabits每秒,按照世界超級(jí)計(jì)算機(jī)TOP500的排名,微軟打造的這款新型超級(jí)計(jì)算機(jī)位列前五名。
如何讓這套集成萬塊GPU的超算集群全力開動(dòng)起來,成了當(dāng)初擺在微軟面前的難題。
微軟 Azure 高性能計(jì)算和人工智能產(chǎn)品負(fù)責(zé)人 Nidhi Chappell 稱,技術(shù)的關(guān)鍵是學(xué)習(xí)如何在高吞吐量、低延遲的 InfiniBand 網(wǎng)絡(luò)上構(gòu)建、運(yùn)行和維護(hù)數(shù)以萬計(jì)共處一地的 GPU,并相互連接。
微軟介紹稱,為了幫助訓(xùn)練大型語言模型,計(jì)算工作被劃分到一個(gè)集群中的數(shù)千個(gè) GPU 上,在Allreduce階段,GPU會(huì)相互交換信息,而全新的 InfiniBand 網(wǎng)絡(luò)用于加速這一階段,這一切都在下一階段計(jì)算前完成,所有GPU就像齒輪一樣緊密咬合在了一起。
"由于工作跨越了數(shù)千個(gè) GPU,你需要確保你有可靠的基礎(chǔ)設(shè)施,然后也需要在后端擁有網(wǎng)絡(luò),這樣你就可以更快地進(jìn)行通信,并能夠連續(xù)數(shù)周這樣做",Chappell 說道,“這不是你買了一大堆 GPU,把它們連在一起,就可以開始工作的。為了獲得*的性能,需要有很多系統(tǒng)級(jí)的優(yōu)化,而這是經(jīng)過許多代人的經(jīng)驗(yàn)總結(jié)出來的。”
時(shí)間來到今日,這套基礎(chǔ)架構(gòu)現(xiàn)在已成為整個(gè) Azure 云計(jì)算結(jié)構(gòu)的標(biāo)準(zhǔn)配置,其中包括針對(duì) AI 工作負(fù)載優(yōu)化的虛擬機(jī)組合、連接的計(jì)算和存儲(chǔ)資源,微軟云和人工智能集團(tuán)執(zhí)行副總裁 Scott Guthrie 表示,構(gòu)建這種基礎(chǔ)設(shè)施釋放了 OpenAI 的 ChatGPT 和新的 Microsoft Bing 等產(chǎn)品中的人工智能功能。
在ChatGPT全球爆火之后,原來的這套超算已經(jīng)無法滿足越來愈多的AI計(jì)算需求,今年3月,微軟發(fā)布博文稱,Azure即將迎來重磅升級(jí),加入數(shù)萬張英偉達(dá)最新的H100顯卡以及更快的InfiniBand網(wǎng)絡(luò)互連技術(shù)。
根據(jù)微軟的介紹,ND H100 v5 虛擬機(jī)將成為未來AI的支柱,它支持按需大小不等的 8 到數(shù)千個(gè) NVIDIA H100 GPU,這些 GPU 通過 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡(luò)互連。與上一代 ND A100 v4 VM 相比,可以看到人工智能模型的性能顯著提高,其中創(chuàng)新技術(shù)包括:
8個(gè)NVIDIA H100 Tensor Core GPU通過下一代NVSwitch和NVlink 4.0互聯(lián);
每個(gè)GPU有400 Gb/s的NVIDIA Quantum-2 CX7 InfiniBand,每個(gè)虛擬機(jī)有3.2Tb/s的無阻塞胖樹型網(wǎng)絡(luò);
NVSwitch和NVlink 4.0在每個(gè)虛擬機(jī)的8個(gè)本地GPU之間具有3.6TB/s的雙向帶寬;
第四代英特爾至強(qiáng)可擴(kuò)展處理器;
PCIE Gen5到GPU互連,每個(gè)GPU有64GB/s帶寬;
16通道4800MHz DDR5 DIMM……
微軟表示,ND H100 v5虛擬機(jī)將成為微軟向客戶提供基礎(chǔ)設(shè)施的方式,該基礎(chǔ)設(shè)施包括數(shù)以千計(jì)的 NVIDIA AI 優(yōu)化 GPU,這些 GPU 在基于 NVIDIA Quantum InfiniBand 通信的高吞吐量、低延遲網(wǎng)絡(luò)中連接在一起,其可以根據(jù)任何 AI 任務(wù)的規(guī)模進(jìn)行擴(kuò)展。
與特斯拉相比,微軟的超算不再局限于單一的特定用途,而是更看重在AI訓(xùn)練方面的整體性能,以及面向各類用戶的靈活擴(kuò)展,相信其未來潛力會(huì)隨著Open AI和微軟旗下AI產(chǎn)品的發(fā)展而進(jìn)一步得到釋放。
谷歌
與微軟不同,谷歌在組建超算集群這條路上出發(fā)得更早,它不光從英偉達(dá)處大批量采購顯卡,同時(shí)還悄悄啟動(dòng)了自研計(jì)劃,雙軌并行成就了今天谷歌的超算。
谷歌的自研始于2013年,當(dāng)時(shí)的 Google AI負(fù)責(zé)人Jeff Dean經(jīng)過計(jì)算后發(fā)現(xiàn),如果有1億安卓用戶每天使用手機(jī)語音轉(zhuǎn)文字服務(wù)3分鐘,其中消耗的算力就是Google所有數(shù)據(jù)中心總算力的兩倍,而全球安卓用戶遠(yuǎn)不止1億。
谷歌最終選擇了另辟蹊徑,并立下了一個(gè)不低的目標(biāo):針對(duì)機(jī)器學(xué)習(xí)這一目的來構(gòu)建特定領(lǐng)域計(jì)算架構(gòu)(Domain-specific Architecture),還要將深度神經(jīng)網(wǎng)絡(luò)推理的總體擁有成本(TCO)降低至原來的十分之一。
2014年,谷歌TPU(Tensor Processing Unit)開始正式研發(fā),得益于谷歌本身既有的強(qiáng)大科研實(shí)力,以及從各個(gè)公司招募而來的優(yōu)秀芯片人才,TPU的開發(fā)異常順利,僅在15個(gè)月后就開始在數(shù)據(jù)中心部署應(yīng)用,且每瓦性能達(dá)到了GPU的30倍,CPU的80倍。
直到2016年的Google I/O開發(fā)者大會(huì)上,首席執(zhí)行官Sundar Pichai才正式向世界展示了TPU這一自研成果。Pichai非常自豪地表示,DeepMind研發(fā)的AlphaGo能夠擊敗韓國(guó)棋手李世石,底層硬件里的TPU功不可沒,TPU就像希臘神話中引發(fā)特洛伊戰(zhàn)爭(zhēng)的女人——海倫,它的出現(xiàn)引起了“成千芯片與之競(jìng)逐”。
而在2023年,谷歌公布了自研芯片的最新版本——TPU V4,相較于上一代,性能高出2.1倍,在整合4096個(gè)芯片之后,超算性能提升了10倍。
谷歌表示,對(duì)于規(guī)模相當(dāng)?shù)南到y(tǒng),TPU v4可以提供比英偉達(dá)A100強(qiáng)1.7倍的性能,同時(shí)在能效上也能提高1.9倍。與TPU v3一樣,每個(gè)TPU v4包含兩個(gè)TensorCore(TC)。每個(gè)TC包含四個(gè)128x128矩陣乘法單元(MXU),一個(gè)具有128個(gè)通道(每個(gè)通道16個(gè)ALU),以及16 MiB向量存儲(chǔ)器(VMEM)的向量處理單元(VPU)。
谷歌稱,客戶對(duì)機(jī)器學(xué)習(xí)的容量、性能和規(guī)模的需求一直在快速增長(zhǎng)。為了支持AI的下一代基礎(chǔ)性進(jìn)步,我們正式推出了谷歌云機(jī)器學(xué)習(xí)集群,其中就包括預(yù)覽版的Cloud TPU v4 Pod,在最高可達(dá)9 exaflops的峰值聚合性能下,Cloud TPU v4 Pods集群在算力方面是全世界*的公開可用的機(jī)器學(xué)習(xí)中心。
讓人感到訝異的是,谷歌實(shí)施自研戰(zhàn)略的后,利用英偉達(dá)GPU組建的超算集群也絲毫不遜色于其他巨頭。
今年5月,在年度 Google I/O 開發(fā)者大會(huì)上,谷歌公布了全新 AI 超級(jí)計(jì)算機(jī)——A3 ,該超算擁有大約 26,000 塊英偉達(dá)H100 GPU,作為參考,世界上最快的公共超級(jí)計(jì)算機(jī)Frontier擁有 37,000 塊 AMD Instinct 250X GPU。
谷歌表示,A3超級(jí)計(jì)算機(jī)面向希望訓(xùn)練大型語言模型的客戶,是對(duì)現(xiàn)有 A2 虛擬機(jī)與 Nvidia A100 GPU 提供的計(jì)算資源的重大升級(jí),谷歌正在將所有分布在不同地理位置的 A3 計(jì)算實(shí)例匯集到一臺(tái)超級(jí)計(jì)算機(jī)中。
“A3 超級(jí)計(jì)算機(jī)的規(guī)??商峁└哌_(dá) 26 exaflops 的 AI 性能,這大大減少了訓(xùn)練大型 ML 模型的時(shí)間和成本,”谷歌的董事 Roy Kim 和產(chǎn)品經(jīng)理 Chris Kleban 在博文中提到。
此外,A3 超算是*個(gè)通過名為 Mount Evans 的基礎(chǔ)設(shè)施處理單元連接 GPU 實(shí)例的虛擬機(jī),該單元由谷歌和英特爾聯(lián)合開發(fā),IPU 允許 A3 虛擬機(jī)卸載網(wǎng)絡(luò)、存儲(chǔ)管理和安全功能,并以 200Gbps 的速度傳輸數(shù)據(jù)。
“A3 是*個(gè)使用我們定制設(shè)計(jì)的 200Gbps IPU 的 GPU 實(shí)例,GPU 到 GPU 的數(shù)據(jù)傳輸繞過 CPU 主機(jī)并流經(jīng)與其他 VM 網(wǎng)絡(luò)和數(shù)據(jù)流量不同的接口。與我們的 A2 虛擬機(jī)相比,這使網(wǎng)絡(luò)帶寬增加了 10 倍,具有低尾延遲和高帶寬穩(wěn)定性,”谷歌高管在博客文章中表示。
左手TPU,右手H100的谷歌,在組建超算集群這件事上似乎走在了很多公司的前面,自研面向自身需求,而英偉達(dá)GPU服務(wù)于客戶,二者取長(zhǎng)補(bǔ)短,讓谷歌成為了這個(gè)AI時(shí)代的弄潮兒。
meta
對(duì)于因?yàn)樵钪娑拿膍eta來說,AI似乎一直是它深耕的領(lǐng)域,更是為了它背后的基礎(chǔ)設(shè)施豪擲萬金,力圖打造世界*流的超算集群。
2017年,當(dāng)時(shí)還叫FaceBook的meta打造了*代AI超級(jí)計(jì)算機(jī),其配備了22000個(gè)NVIDIA V100 Tensor Core GPU,每日可處理35000項(xiàng)AI訓(xùn)練工作。
據(jù) HPCwire 預(yù)計(jì),這個(gè)基于 V100 GPU 的前身版本,按照 Linpack benchmark 的浮點(diǎn)計(jì)算性能應(yīng)該已經(jīng)達(dá)到了135 PFlops。在2021年11月全球超算排行榜中足以排到第三名,其算力已經(jīng)超越了美國(guó)在加州 Livermore 運(yùn)作的“山脊”(Sierra) 超級(jí)計(jì)算機(jī)。
2020年初,由于已有超算集群越來越難跟上未來大模型訓(xùn)練的需要,meta決定從0開始設(shè)計(jì)一個(gè)新的超算,進(jìn)而在大到一個(gè)Exabyte的數(shù)據(jù)集上訓(xùn)練出超過一萬億個(gè)參數(shù)的模型,
2022年1月,meta 宣布它正在建造的世界最快 AI 超算 AI Research SuperCluster (RSC),他們選擇了三家在 AI 計(jì)算和數(shù)據(jù)中心組件方面最知名的公司:英偉達(dá)、Penguin Computing,和 Pure Storage。
meta不僅從英偉達(dá)處采購了760臺(tái) DGX 通用訓(xùn)練系統(tǒng),其中包含共計(jì)6080塊 Ampere 架構(gòu) Tesla A100 GPU,還從 Pure Storage 采購了共計(jì) 231PB 的閃存陣列、模塊和緩存容量,機(jī)架搭建、設(shè)備安裝和數(shù)據(jù)中心的后續(xù)管理工作,則由從 Facebook 時(shí)代就在服務(wù)該公司的 Penguin Computing 負(fù)責(zé)。
最終,*階段的RSC超算包含 6,080 塊 GPU,緩存容量 46 PB,主閃存 175 PB。在計(jì)算機(jī)視覺任務(wù)上,新超算的性能比舊系統(tǒng)提高 20 倍,在大型自然語言處理上性能提升 3 倍,而在第二階段正式完成時(shí),包含總共 2000 個(gè) 英偉達(dá)DGX A100 系統(tǒng),使用了 16000 塊 GPU,儲(chǔ)存容量達(dá)到 1 EB,能每秒處理 16 Tbps 的數(shù)據(jù)。
meta在博客文章中表示:“我們希望RSC幫助我們建立全新的AI系統(tǒng),例如可以為多個(gè)不同語言的團(tuán)隊(duì)提供實(shí)時(shí)語音翻譯,使他們可以在研究項(xiàng)目上無縫協(xié)作,甚至一起玩AR游戲。”
不過目前來看,meta超算RSC的算力已經(jīng)落后于微軟和谷歌的AI超算,畢竟后者已經(jīng)開始利用更強(qiáng)大的H100 GPU來構(gòu)筑超算,但meta也表示 ,RSC的優(yōu)勢(shì)是允許其研究人員使用 meta 生產(chǎn)系統(tǒng)中的真實(shí)示例來訓(xùn)練模型,希望為 AI 研究人員提供*進(jìn)的基礎(chǔ)設(shè)施,使他們能夠開發(fā)模型并為他們提供培訓(xùn)平臺(tái)以推進(jìn) AI 發(fā)展。
而meta也早已建立了新的自研計(jì)劃,在2020年就開發(fā)了其*代基于7nm工藝的自研AI芯片 MTIA(MTIA v1),可以從128 MB 內(nèi)存擴(kuò)展到高達(dá) 128 GB,其專門用于處理與 AI 推薦系統(tǒng)相關(guān)的工作,幫助用戶找出*貼文內(nèi)容并更快呈現(xiàn)在用戶眼前,其計(jì)算性能和處理效率都勝過 CPU。另外,在 meta 設(shè)計(jì)的基準(zhǔn)測(cè)試中,MTIA處理“低復(fù)雜性” 和“中等復(fù)雜度”的 AI 模型也比 GPU 更高效。
對(duì)于meta來說,目前沒有新的超算建造計(jì)劃可能是不大不小的遺憾,但依靠自研芯片和已有的強(qiáng)大超算,和微軟谷歌相比也不逞多讓。
AWS
與前幾個(gè)耳熟能詳?shù)墓鞠啾?,較少被提及的AWS(亞馬遜云科技)作為全球云計(jì)算服務(wù)提供商,在組建超算集群的速度和規(guī)模上,并不比其他巨頭遜色多少。
AWS和英偉達(dá)合作的歷史有12年之久,在過去十幾年的時(shí)間當(dāng)中,AWS陸續(xù)推出了基于英偉達(dá)GPU的各種GPU實(shí)例,如CG1實(shí)例(2010年)、G2(2013年)、P2(2016年)、P3(2017年)、G3(2017年)、P3dn(2018年)、G4(2019年)、P4(2020年)、G5(2021年)和P4de(2022年)實(shí)例。
在去年發(fā)布的EC2 P4de實(shí)例中,采用8個(gè)英偉達(dá) A100 GPU,每個(gè)具有80GB高性能的HBM2e GPU 內(nèi)存,而這一實(shí)例在去年已經(jīng)用于AWS的超算集群。
今年5月,AWS更進(jìn)一步,宣布推出 EC2 P5 虛擬機(jī)實(shí)例,該實(shí)例將在 Nvidia H100 GPU 的基礎(chǔ)上運(yùn)行,其采用8塊英偉達(dá)H100 Tensor Core GPU,具有640 GB高帶寬GPU內(nèi)存,同時(shí)提供第三代AMD EPYC處理器、2TB系統(tǒng)內(nèi)存和30TB本地NVMe存儲(chǔ),還提供了3200 Gbps的聚合網(wǎng)絡(luò)帶寬并支持GPUDirect RDMA,從而能夠繞過CPU進(jìn)行節(jié)點(diǎn)間通信,實(shí)現(xiàn)更低的延遲和高效的橫向擴(kuò)展性能。
而且Amazon EC2 P5實(shí)例可以部署在超大規(guī)模集群第二代Amazon EC2 UltraClusters中,其由高性能計(jì)算、網(wǎng)絡(luò)和云存儲(chǔ)組成,Amazon EC2 UltraClusters可以使用多達(dá)2萬個(gè)H100 Tensor Core GPU,用戶可以部署可擴(kuò)展到數(shù)十億或數(shù)萬億參數(shù)的機(jī)器學(xué)習(xí)模型。
英偉達(dá)副總裁 Swami Sivasubramanian 表示,與基于英偉達(dá)上一代 A100 GPU 的 EC2 P4 模型相比,P5 實(shí)例在訓(xùn)練大型語言模型時(shí)速度提高了六倍,并且可以將訓(xùn)練成本降低 40%。
此外,AWS還為超算集群推出了基于Arm的CPU,名為Graviton3E的芯片正是AWS的EC2 HPC7g實(shí)例的一部分,AWS將HPC7g實(shí)例定位為“緊耦合計(jì)算和網(wǎng)絡(luò)密集型HPC工作負(fù)載的實(shí)例類型”,網(wǎng)絡(luò)密集型功能集中在Nitro系統(tǒng)芯片上,這是一個(gè)數(shù)據(jù)處理器或基礎(chǔ)設(shè)施處理單元,處理網(wǎng)絡(luò),I/O和安全性,其可與英偉達(dá)的Bluefield或谷歌與英特爾合作開發(fā)的Mount Evans相媲美。
目前,Nitro已成為AWS云基礎(chǔ)設(shè)施的核心,其提供了適合其分布式系統(tǒng)高性能的I/O,HPC7g虛擬機(jī)可用于從16個(gè)核心到64個(gè)CPU核心的實(shí)例,具有128GB內(nèi)存、Amazon Elastic Block存儲(chǔ)、200Gbps EFA(彈性結(jié)構(gòu)適配器)帶寬和25Gbps網(wǎng)絡(luò)帶寬。
值得一提的是,另一家公司RIKEN已經(jīng)通過AWS的HPC7g實(shí)例構(gòu)建了其基于Arm的Fugaku計(jì)算機(jī)的云版本,這也是世界上第二快的超級(jí)計(jì)算機(jī)。
生成式AI成為了云服務(wù)市場(chǎng)新的增長(zhǎng)點(diǎn),同時(shí)也推動(dòng)云服務(wù)市場(chǎng)的創(chuàng)新和差異化,作為行業(yè)領(lǐng)頭羊的AWS顯然沒有忽視這件事,早已在搭建超算集群的路上持續(xù)向前奔跑。
特斯拉
至于開頭提到的特斯拉,作為自動(dòng)駕駛的先鋒,它早已把超算集群當(dāng)成是未來的主要方向,除了備受青睞的英偉達(dá)顯卡外,自研更是它*的法寶之一。
早在2021年6月,國(guó)際計(jì)算機(jī)視覺和模式識(shí)別會(huì)議(CVPR)周末的演講中,特斯拉人工智能團(tuán)隊(duì)的負(fù)責(zé)人安德烈·卡帕西 (Andrej Karpathy) 就展示了一臺(tái)超級(jí)計(jì)算機(jī),這臺(tái)超級(jí)計(jì)算機(jī)采用了 5760 個(gè)算力為 321TFLOPS 的英偉達(dá) A100 顯卡,組成了 720 個(gè)節(jié)點(diǎn),總算力突破了 1.8EFLOPS,10PB 的存儲(chǔ)空間。
而在2021年的特斯拉AI日上,特斯拉自研的多芯片模組化(Multi-Chip Modularized)超級(jí)計(jì)算機(jī)正式亮相,其被命名為Dojo,最初它主要服務(wù)于自動(dòng)駕駛系統(tǒng)的數(shù)據(jù)標(biāo)注以及訓(xùn)練,后也被應(yīng)用于機(jī)器人研發(fā),特斯拉的人形機(jī)器人就搭載了Dojo的D1超算芯片。
D1超算芯片是Dojo系統(tǒng)的基礎(chǔ)。該芯片采用7納米制造工藝,處理能力為1024 gigaflops,即每秒1024億次。1500枚D1芯片可組成陣列,而將25個(gè)陣列放在一塊晶圓上,便能形成訓(xùn)練模組(Training Tile),這便是Dojo超級(jí)計(jì)算機(jī)的單元核心。
到了2022年的特斯拉AI日上,特斯拉正式公布了由D1芯片組成的Dojo ExaPod,即Dojo集群,該集群內(nèi)含120個(gè)訓(xùn)練模組(Training Tile)、3000個(gè)D1芯片。其擁有13TB靜態(tài)隨機(jī)存取記憶體容量以及1.3TB高傳輸頻寬記憶體容量,算力高達(dá)1.1EFLOP。
據(jù)介紹,Dojo由“圖塊”組成,工作方式與基于CPU或基于GPU的超級(jí)計(jì)算機(jī)有很大不同。特斯拉稱,Dojo的D1芯片模塊并不是由很多較小的芯片組合在一起,而是一個(gè)具有354個(gè)內(nèi)核的大型芯片組成,專門針對(duì)AI和機(jī)器學(xué)習(xí),每個(gè)Dojo機(jī)柜可容納4248個(gè)內(nèi)核,10個(gè)機(jī)柜的組成的exapod可容納42480個(gè)內(nèi)核。因此對(duì)于相同的數(shù)據(jù)中心占用空間來說,Dojo要比CPU或者GPU快幾個(gè)數(shù)量級(jí)。
Dojo不僅會(huì)幫助加速 FSD 訓(xùn)練,還將負(fù)責(zé)管理特斯拉汽車的數(shù)據(jù)處理,根據(jù)特斯拉CEO馬斯克所說,特斯拉會(huì)同時(shí)應(yīng)用英偉達(dá)H100 GPU 超算集群和 Dojo超算集群,此舉將為該公司在汽車行業(yè)提供*的計(jì)算能力。
單論H100超算集群的數(shù)量,特斯拉可能還無法和谷歌微軟相媲美,但Dojo自研芯片無疑是它*的底氣之一,在自動(dòng)駕駛浪潮來臨之際,特斯拉這兩大利器,已經(jīng)足夠讓它成為目前算力最強(qiáng)大的公司之一,笑傲于數(shù)千家車企之中。
新銳企業(yè)
在組建超算集群這件事上,巨頭們爭(zhēng)先恐后,而其他新銳也不甘示弱,甚至由于他們和英偉達(dá)的良好關(guān)系,這方面反而具備了自身的優(yōu)勢(shì)。
成立于2017年總部位于紐約的CoreWeave就是這樣一家新銳企業(yè),此前專注于加密貨幣“挖礦”市場(chǎng)的它,在過去幾年時(shí)間實(shí)現(xiàn)了轉(zhuǎn)型,瞄準(zhǔn)了人工智能領(lǐng)域,開始提供基于圖形處理單元(GPU)的云計(jì)算服務(wù),今年早些時(shí)候,它還獲得了英偉達(dá)的1億美元投資。
根據(jù)官網(wǎng)介紹,CoreWeave目前可以通過搭建的英偉達(dá) A100 和 A40 GPU 集群提供虛擬化算力,可讓用戶訪問超過45000個(gè)GPU,被認(rèn)為是市場(chǎng)上運(yùn)行人工智能模型的*選擇。
而這家公司近期聯(lián)合英偉達(dá),以及新興AI企業(yè)Inflection AI,開始建造全球*的AI超算集群,該集群由22,000個(gè)英偉達(dá)H100 GPU組成,在16位精度模式下可以達(dá)到22 exaFLOPS的運(yùn)算能力,使用低精度模式,其運(yùn)算能力還會(huì)進(jìn)一步提高,對(duì)照TOP500超級(jí)計(jì)算機(jī)列表,這臺(tái)全新的超算集群將位列第二,僅次于榜首。
而另一家接受英偉達(dá)3億美元投資的新銳企業(yè)Lambda Labs同樣不容忽視,這家美國(guó)云服務(wù)初創(chuàng)公司由Michael Balaban和Stephen Balaban兩兄弟于2012年創(chuàng)立,早年業(yè)務(wù)重點(diǎn)是銷售GPU驅(qū)動(dòng)的計(jì)算機(jī),后轉(zhuǎn)型為GPU云服務(wù)器租賃,公司的年收益從千萬美元的規(guī)模上升至數(shù)億美元的規(guī)模。
而Lambda labs的規(guī)模雖然不大,但其號(hào)稱能提供全世界價(jià)格*的NVIDIA A100、H100算力資源,與CoreWeave一樣是組建AI超算集群的主力之一。
這部分新銳在英偉達(dá)的支持下迅速崛起,成為了超算集群中不可忽視的一股力量。
總結(jié)
據(jù)不完全統(tǒng)計(jì),目前國(guó)內(nèi)已發(fā)布的各類大模型數(shù)量超過 100 個(gè), 一場(chǎng)“百模大戰(zhàn)”已經(jīng)擺好了駕駛,而在大模型訓(xùn)練的背后,最關(guān)鍵就是算力,截至 2022 年底,我國(guó)算力總規(guī)模達(dá) 180EFLOPS , 目前居全球第二位,但即便是如此龐大的算力,與目前各類模型訓(xùn)練的需求仍然不成正比,算力缺口反而在今年進(jìn)一步擴(kuò)大。
除了美國(guó)外,英國(guó)政府斥資9億英鎊,用于構(gòu)建一臺(tái)百億億級(jí)超級(jí)計(jì)算機(jī),旨在打造全球*進(jìn)的語言模型——BritGPT;人工智能初創(chuàng)公司Cerebras Systems宣布將攜手阿聯(lián)酋集團(tuán)G42打造一個(gè)由9臺(tái)互聯(lián)的超級(jí)計(jì)算機(jī)組成的網(wǎng)絡(luò),目前*臺(tái)AI超級(jí)計(jì)算機(jī)——“Condor Galaxy 1(CG-1)”開始部署,AI算力高達(dá)4 exaFLOPS(每秒4百億億次);日本經(jīng)濟(jì)產(chǎn)業(yè)省將通過其附設(shè)的研究機(jī)構(gòu)引進(jìn)一臺(tái)新的尖端超級(jí)計(jì)算機(jī),其計(jì)算能力大約是現(xiàn)有機(jī)器的 2.5 倍,通過云服務(wù)將這臺(tái)超算提供給開發(fā)生成式 AI 的日本國(guó)內(nèi)企業(yè)……說是千帆競(jìng)逐也不為過
當(dāng)我們?cè)俜叛蹏?guó)內(nèi),今年4月,騰訊云正式發(fā)布新一代HCC高性能計(jì)算集群,國(guó)內(nèi)首發(fā)搭載英偉達(dá)最新的H800 GPU,采用業(yè)界最高的3.2T互聯(lián)帶寬;2023年阿里云將推出一款更接近云計(jì)算*形態(tài)的算力產(chǎn)品,這款被命名為通用Universal實(shí)例的產(chǎn)品進(jìn)一步屏蔽了傳統(tǒng)IT的硬件參數(shù);百度新建設(shè)的陽泉智算中心是亞洲*單體智算中心,建設(shè)規(guī)模為4 EFLOPSAI算力……幾家巨頭早已把超算列上了重要日程。
更值得我們關(guān)注的是,過去的超算架構(gòu)主要以 CPU 為主,但這種傳統(tǒng)基礎(chǔ)設(shè)施架構(gòu)下的算力已經(jīng)無法滿足目前模型訓(xùn)練的需求,只有建設(shè)大規(guī)模 GPU 超算集群,才能真正意義上解決大模型訓(xùn)練的后顧之憂。
可以看到,老牌巨頭中,不管是微軟谷歌,還是meta AWS,把組建超算集群當(dāng)作了重要目標(biāo)之一,他們甚至早在10年前就發(fā)覺了這種趨勢(shì),在這方面均已有所布局,而特斯拉CoreWeave這樣近年才崛起的新貴,更是全力押注算力,一手自研一手采購,迅速填補(bǔ)自身的算力缺口。
這時(shí)候問題就來了,誰能掌握算力,拿下通往未來的*張船票呢?


60709/04








