肥臀巨乳熟女网站|免费亚洲丁香|性爱超碰在线播放|丁香五月欧美成人|精产国品免费jiure99|熟女伦网导航|草草视频在线直播免费观看|外网毛片9999|约干AV一区二区|亚洲激情黄色视屏

當前位置: 首頁 ? 資訊 ? 熱點 ? 正文

誰在搶GPU?

作者:邵逸琦 來源: 半導體行業(yè)觀察 59809/04

8月,英偉達發(fā)布了二季度財報,財報顯示,公司二季度營收135億美元,創(chuàng)季度新高且同比增長超100%。公司預期三季度該數(shù)字將達到160億美元。與此同時,高端芯片的強勁需求將公司毛利率大幅提升至71.2%,二季度凈利潤61.8億美元,同比漲幅達

標簽: GPU 算力 英偉達

8月,英偉達發(fā)布了二季度財報,財報顯示,公司二季度營收135億美元,創(chuàng)季度新高且同比增長超100%。公司預期三季度該數(shù)字將達到160億美元。與此同時,高端芯片的強勁需求將公司毛利率大幅提升至71.2%,二季度凈利潤61.8億美元,同比漲幅達到驚人的843%。

這是什么概念呢?相當于英偉達在三個月時間里多賺了六七十億美元,而且之后每個季度都有望入賬這么多錢,即使放在群英薈萃的硅谷,這樣的成績也足以讓大家感到驚訝了。

而營收和盈利背后,是英偉達顯卡被瘋搶的盛況,即使英偉達今年能預計出貨50萬塊H100顯卡,依舊沒有滿足AI市場的急速擴張的需求,其未來計劃將H100顯卡的產(chǎn)量至少提高兩倍,2024年該顯卡的預計出貨量會達到150萬至200萬顆左右。

那么,到底是誰在搶這幾十萬乃至上百萬的顯卡呢?

我們或許可以從最近的新聞里一窺端倪,8月29日,總耗資三億美元的特斯拉GPU集群正式上線,該集群集成了10000 塊英偉達的H100 GPU,其主要用途就是幫助訓練特斯拉的無人駕駛系統(tǒng)FSD。

作為構筑該集群最重要的一部分,英偉達H100于 2022 年末推出,售價約4萬美元,比 前代A100 快 30 倍,AI 訓練速度快 9 倍,根據(jù)英偉達的介紹,H100 專為視頻訓練等圖形密集型工作負載而設計,且易于擴展,其擁有18,432 個 CUDA 核心, 640 個張量核心 ,80 個流式多處理器 (SM) ,與 A100 相比,H100的高性能計算速度快 5 倍以上。

而由10,000 塊H100構筑的GPU集群將提供 340 FP64 PFLOPS 的峰值性能,為人工智能應用提供 39.58 INT8 ExaFLOPS 的峰值性能,峰值性能上已經(jīng)超越了世界第四高性能超級計算機 Leonardo 所提供的 304 FP64 PFLOPS。

而英偉達第二季度的財報,正是像特斯拉這樣的公司做出的貢獻,他們投入巨資打造超大型GPU集群,一出手就是購入上萬張顯卡,讓臺積電開足了馬力生產(chǎn)都趕不上需求的變化。

微軟

時間回到5 年前,OpenAI 向微軟提出了一個大膽的想法——它可以構建一套人工智能系統(tǒng),永遠改變人類與計算機之間的交互方式。

但是這套人工智能系統(tǒng)并非憑空得來,它需要建立在強悍算力的基礎之上,而且光有一套在背后提供助力的基礎設施還不夠,這還不是一錘子買賣,OpenAI必須能長期穩(wěn)定地運行這套系統(tǒng),簡而言之,就是要不斷地砸錢。

當時,微軟 Azure 高性能計算和人工智能產(chǎn)品負責人 Nidhi Chappell 表示:"我們從研究中了解到的一件事是,模型越大,你擁有的數(shù)據(jù)越多,你能訓練的時間越長,模型的準確性就越好。"

為了力挺OpenAI的人工智能,2019年,微軟宣布與OpenAI建立合作關系,包括投資10億美元以及在Azure中建立一個可以訓練和運行高級AI模型的計算平臺,微軟將對Azure進行的改進,以構建超級計算技術。

在Build 2020活動上,微軟宣布了這次合作的結果。微軟與OpenAI合作,并專門為OpenAI構建了一臺新的超級計算機,這臺新超算包括了超過28.5萬個CPU核心,1萬塊GPU,每個GPU服務器的網(wǎng)絡連接能力為400 gigabits每秒,按照世界超級計算機TOP500的排名,微軟打造的這款新型超級計算機位列前五名。

如何讓這套集成萬塊GPU的超算集群全力開動起來,成了當初擺在微軟面前的難題。

微軟 Azure 高性能計算和人工智能產(chǎn)品負責人 Nidhi Chappell 稱,技術的關鍵是學習如何在高吞吐量、低延遲的 InfiniBand 網(wǎng)絡上構建、運行和維護數(shù)以萬計共處一地的 GPU,并相互連接。

微軟介紹稱,為了幫助訓練大型語言模型,計算工作被劃分到一個集群中的數(shù)千個 GPU 上,在Allreduce階段,GPU會相互交換信息,而全新的 InfiniBand 網(wǎng)絡用于加速這一階段,這一切都在下一階段計算前完成,所有GPU就像齒輪一樣緊密咬合在了一起。

"由于工作跨越了數(shù)千個 GPU,你需要確保你有可靠的基礎設施,然后也需要在后端擁有網(wǎng)絡,這樣你就可以更快地進行通信,并能夠連續(xù)數(shù)周這樣做",Chappell 說道,“這不是你買了一大堆 GPU,把它們連在一起,就可以開始工作的。為了獲得*的性能,需要有很多系統(tǒng)級的優(yōu)化,而這是經(jīng)過許多代人的經(jīng)驗總結出來的?!?/p>

時間來到今日,這套基礎架構現(xiàn)在已成為整個 Azure 云計算結構的標準配置,其中包括針對 AI 工作負載優(yōu)化的虛擬機組合、連接的計算和存儲資源,微軟云和人工智能集團執(zhí)行副總裁 Scott Guthrie 表示,構建這種基礎設施釋放了 OpenAI 的 ChatGPT 和新的 Microsoft Bing 等產(chǎn)品中的人工智能功能。

在ChatGPT全球爆火之后,原來的這套超算已經(jīng)無法滿足越來愈多的AI計算需求,今年3月,微軟發(fā)布博文稱,Azure即將迎來重磅升級,加入數(shù)萬張英偉達最新的H100顯卡以及更快的InfiniBand網(wǎng)絡互連技術。

根據(jù)微軟的介紹,ND H100 v5 虛擬機將成為未來AI的支柱,它支持按需大小不等的 8 到數(shù)千個 NVIDIA H100 GPU,這些 GPU 通過 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡互連。與上一代 ND A100 v4 VM 相比,可以看到人工智能模型的性能顯著提高,其中創(chuàng)新技術包括:

8個NVIDIA H100 Tensor Core GPU通過下一代NVSwitch和NVlink 4.0互聯(lián);

每個GPU有400 Gb/s的NVIDIA Quantum-2 CX7 InfiniBand,每個虛擬機有3.2Tb/s的無阻塞胖樹型網(wǎng)絡;

NVSwitch和NVlink 4.0在每個虛擬機的8個本地GPU之間具有3.6TB/s的雙向帶寬;

第四代英特爾至強可擴展處理器;

PCIE Gen5到GPU互連,每個GPU有64GB/s帶寬;

16通道4800MHz DDR5 DIMM……

微軟表示,ND H100 v5虛擬機將成為微軟向客戶提供基礎設施的方式,該基礎設施包括數(shù)以千計的 NVIDIA AI 優(yōu)化 GPU,這些 GPU 在基于 NVIDIA Quantum InfiniBand 通信的高吞吐量、低延遲網(wǎng)絡中連接在一起,其可以根據(jù)任何 AI 任務的規(guī)模進行擴展。

與特斯拉相比,微軟的超算不再局限于單一的特定用途,而是更看重在AI訓練方面的整體性能,以及面向各類用戶的靈活擴展,相信其未來潛力會隨著Open AI和微軟旗下AI產(chǎn)品的發(fā)展而進一步得到釋放。

谷歌

與微軟不同,谷歌在組建超算集群這條路上出發(fā)得更早,它不光從英偉達處大批量采購顯卡,同時還悄悄啟動了自研計劃,雙軌并行成就了今天谷歌的超算。

谷歌的自研始于2013年,當時的 Google AI負責人Jeff Dean經(jīng)過計算后發(fā)現(xiàn),如果有1億安卓用戶每天使用手機語音轉文字服務3分鐘,其中消耗的算力就是Google所有數(shù)據(jù)中心總算力的兩倍,而全球安卓用戶遠不止1億。

谷歌最終選擇了另辟蹊徑,并立下了一個不低的目標:針對機器學習這一目的來構建特定領域計算架構(Domain-specific Architecture),還要將深度神經(jīng)網(wǎng)絡推理的總體擁有成本(TCO)降低至原來的十分之一。

2014年,谷歌TPU(Tensor Processing Unit)開始正式研發(fā),得益于谷歌本身既有的強大科研實力,以及從各個公司招募而來的優(yōu)秀芯片人才,TPU的開發(fā)異常順利,僅在15個月后就開始在數(shù)據(jù)中心部署應用,且每瓦性能達到了GPU的30倍,CPU的80倍。

直到2016年的Google I/O開發(fā)者大會上,首席執(zhí)行官Sundar Pichai才正式向世界展示了TPU這一自研成果。Pichai非常自豪地表示,DeepMind研發(fā)的AlphaGo能夠擊敗韓國棋手李世石,底層硬件里的TPU功不可沒,TPU就像希臘神話中引發(fā)特洛伊戰(zhàn)爭的女人——海倫,它的出現(xiàn)引起了“成千芯片與之競逐”。

而在2023年,谷歌公布了自研芯片的最新版本——TPU V4,相較于上一代,性能高出2.1倍,在整合4096個芯片之后,超算性能提升了10倍。

谷歌表示,對于規(guī)模相當?shù)南到y(tǒng),TPU v4可以提供比英偉達A100強1.7倍的性能,同時在能效上也能提高1.9倍。與TPU v3一樣,每個TPU v4包含兩個TensorCore(TC)。每個TC包含四個128x128矩陣乘法單元(MXU),一個具有128個通道(每個通道16個ALU),以及16 MiB向量存儲器(VMEM)的向量處理單元(VPU)。

谷歌稱,客戶對機器學習的容量、性能和規(guī)模的需求一直在快速增長。為了支持AI的下一代基礎性進步,我們正式推出了谷歌云機器學習集群,其中就包括預覽版的Cloud TPU v4 Pod,在最高可達9 exaflops的峰值聚合性能下,Cloud TPU v4 Pods集群在算力方面是全世界*的公開可用的機器學習中心。

讓人感到訝異的是,谷歌實施自研戰(zhàn)略的后,利用英偉達GPU組建的超算集群也絲毫不遜色于其他巨頭。

今年5月,在年度 Google I/O 開發(fā)者大會上,谷歌公布了全新 AI 超級計算機——A3 ,該超算擁有大約 26,000 塊英偉達H100 GPU,作為參考,世界上最快的公共超級計算機Frontier擁有 37,000 塊 AMD Instinct 250X GPU。

谷歌表示,A3超級計算機面向希望訓練大型語言模型的客戶,是對現(xiàn)有 A2 虛擬機與 Nvidia A100 GPU 提供的計算資源的重大升級,谷歌正在將所有分布在不同地理位置的 A3 計算實例匯集到一臺超級計算機中。

“A3 超級計算機的規(guī)模可提供高達 26 exaflops 的 AI 性能,這大大減少了訓練大型 ML 模型的時間和成本,”谷歌的董事 Roy Kim 和產(chǎn)品經(jīng)理 Chris Kleban 在博文中提到。

此外,A3 超算是*個通過名為 Mount Evans 的基礎設施處理單元連接 GPU 實例的虛擬機,該單元由谷歌和英特爾聯(lián)合開發(fā),IPU 允許 A3 虛擬機卸載網(wǎng)絡、存儲管理和安全功能,并以 200Gbps 的速度傳輸數(shù)據(jù)。

“A3 是*個使用我們定制設計的 200Gbps IPU 的 GPU 實例,GPU 到 GPU 的數(shù)據(jù)傳輸繞過 CPU 主機并流經(jīng)與其他 VM 網(wǎng)絡和數(shù)據(jù)流量不同的接口。與我們的 A2 虛擬機相比,這使網(wǎng)絡帶寬增加了 10 倍,具有低尾延遲和高帶寬穩(wěn)定性,”谷歌高管在博客文章中表示。

左手TPU,右手H100的谷歌,在組建超算集群這件事上似乎走在了很多公司的前面,自研面向自身需求,而英偉達GPU服務于客戶,二者取長補短,讓谷歌成為了這個AI時代的弄潮兒。

meta

對于因為元宇宙而改名的meta來說,AI似乎一直是它深耕的領域,更是為了它背后的基礎設施豪擲萬金,力圖打造世界*流的超算集群。

2017年,當時還叫FaceBook的meta打造了*代AI超級計算機,其配備了22000個NVIDIA V100 Tensor Core GPU,每日可處理35000項AI訓練工作。

據(jù) HPCwire 預計,這個基于 V100 GPU 的前身版本,按照 Linpack benchmark 的浮點計算性能應該已經(jīng)達到了135 PFlops。在2021年11月全球超算排行榜中足以排到第三名,其算力已經(jīng)超越了美國在加州 Livermore 運作的“山脊”(Sierra) 超級計算機。

2020年初,由于已有超算集群越來越難跟上未來大模型訓練的需要,meta決定從0開始設計一個新的超算,進而在大到一個Exabyte的數(shù)據(jù)集上訓練出超過一萬億個參數(shù)的模型,

2022年1月,meta 宣布它正在建造的世界最快 AI 超算 AI Research SuperCluster (RSC),他們選擇了三家在 AI 計算和數(shù)據(jù)中心組件方面最知名的公司:英偉達、Penguin Computing,和 Pure Storage。

meta不僅從英偉達處采購了760臺 DGX 通用訓練系統(tǒng),其中包含共計6080塊 Ampere 架構 Tesla A100 GPU,還從 Pure Storage 采購了共計 231PB 的閃存陣列、模塊和緩存容量,機架搭建、設備安裝和數(shù)據(jù)中心的后續(xù)管理工作,則由從 Facebook 時代就在服務該公司的 Penguin Computing 負責。

最終,*階段的RSC超算包含 6,080 塊 GPU,緩存容量 46 PB,主閃存 175 PB。在計算機視覺任務上,新超算的性能比舊系統(tǒng)提高 20 倍,在大型自然語言處理上性能提升 3 倍,而在第二階段正式完成時,包含總共 2000 個 英偉達DGX A100 系統(tǒng),使用了 16000 塊 GPU,儲存容量達到 1 EB,能每秒處理 16 Tbps 的數(shù)據(jù)。

meta在博客文章中表示:“我們希望RSC幫助我們建立全新的AI系統(tǒng),例如可以為多個不同語言的團隊提供實時語音翻譯,使他們可以在研究項目上無縫協(xié)作,甚至一起玩AR游戲?!?/p>

不過目前來看,meta超算RSC的算力已經(jīng)落后于微軟和谷歌的AI超算,畢竟后者已經(jīng)開始利用更強大的H100 GPU來構筑超算,但meta也表示 ,RSC的優(yōu)勢是允許其研究人員使用 meta 生產(chǎn)系統(tǒng)中的真實示例來訓練模型,希望為 AI 研究人員提供*進的基礎設施,使他們能夠開發(fā)模型并為他們提供培訓平臺以推進 AI 發(fā)展。

而meta也早已建立了新的自研計劃,在2020年就開發(fā)了其*代基于7nm工藝的自研AI芯片 MTIA(MTIA v1),可以從128 MB 內存擴展到高達 128 GB,其專門用于處理與 AI 推薦系統(tǒng)相關的工作,幫助用戶找出*貼文內容并更快呈現(xiàn)在用戶眼前,其計算性能和處理效率都勝過 CPU。另外,在 meta 設計的基準測試中,MTIA處理“低復雜性” 和“中等復雜度”的 AI 模型也比 GPU 更高效。

對于meta來說,目前沒有新的超算建造計劃可能是不大不小的遺憾,但依靠自研芯片和已有的強大超算,和微軟谷歌相比也不逞多讓。

AWS

與前幾個耳熟能詳?shù)墓鞠啾龋^少被提及的AWS(亞馬遜云科技)作為全球云計算服務提供商,在組建超算集群的速度和規(guī)模上,并不比其他巨頭遜色多少。

AWS和英偉達合作的歷史有12年之久,在過去十幾年的時間當中,AWS陸續(xù)推出了基于英偉達GPU的各種GPU實例,如CG1實例(2010年)、G2(2013年)、P2(2016年)、P3(2017年)、G3(2017年)、P3dn(2018年)、G4(2019年)、P4(2020年)、G5(2021年)和P4de(2022年)實例。

在去年發(fā)布的EC2 P4de實例中,采用8個英偉達 A100 GPU,每個具有80GB高性能的HBM2e GPU 內存,而這一實例在去年已經(jīng)用于AWS的超算集群。

今年5月,AWS更進一步,宣布推出 EC2 P5 虛擬機實例,該實例將在 Nvidia H100 GPU 的基礎上運行,其采用8塊英偉達H100 Tensor Core GPU,具有640 GB高帶寬GPU內存,同時提供第三代AMD EPYC處理器、2TB系統(tǒng)內存和30TB本地NVMe存儲,還提供了3200 Gbps的聚合網(wǎng)絡帶寬并支持GPUDirect RDMA,從而能夠繞過CPU進行節(jié)點間通信,實現(xiàn)更低的延遲和高效的橫向擴展性能。

而且Amazon EC2 P5實例可以部署在超大規(guī)模集群第二代Amazon EC2 UltraClusters中,其由高性能計算、網(wǎng)絡和云存儲組成,Amazon EC2 UltraClusters可以使用多達2萬個H100 Tensor Core GPU,用戶可以部署可擴展到數(shù)十億或數(shù)萬億參數(shù)的機器學習模型。

英偉達副總裁 Swami Sivasubramanian 表示,與基于英偉達上一代 A100 GPU 的 EC2 P4 模型相比,P5 實例在訓練大型語言模型時速度提高了六倍,并且可以將訓練成本降低 40%。

此外,AWS還為超算集群推出了基于Arm的CPU,名為Graviton3E的芯片正是AWS的EC2 HPC7g實例的一部分,AWS將HPC7g實例定位為“緊耦合計算和網(wǎng)絡密集型HPC工作負載的實例類型”,網(wǎng)絡密集型功能集中在Nitro系統(tǒng)芯片上,這是一個數(shù)據(jù)處理器或基礎設施處理單元,處理網(wǎng)絡,I/O和安全性,其可與英偉達的Bluefield或谷歌與英特爾合作開發(fā)的Mount Evans相媲美。

目前,Nitro已成為AWS云基礎設施的核心,其提供了適合其分布式系統(tǒng)高性能的I/O,HPC7g虛擬機可用于從16個核心到64個CPU核心的實例,具有128GB內存、Amazon Elastic Block存儲、200Gbps EFA(彈性結構適配器)帶寬和25Gbps網(wǎng)絡帶寬。

值得一提的是,另一家公司RIKEN已經(jīng)通過AWS的HPC7g實例構建了其基于Arm的Fugaku計算機的云版本,這也是世界上第二快的超級計算機。

生成式AI成為了云服務市場新的增長點,同時也推動云服務市場的創(chuàng)新和差異化,作為行業(yè)領頭羊的AWS顯然沒有忽視這件事,早已在搭建超算集群的路上持續(xù)向前奔跑。

特斯拉

至于開頭提到的特斯拉,作為自動駕駛的先鋒,它早已把超算集群當成是未來的主要方向,除了備受青睞的英偉達顯卡外,自研更是它*的法寶之一。

早在2021年6月,國際計算機視覺和模式識別會議(CVPR)周末的演講中,特斯拉人工智能團隊的負責人安德烈·卡帕西 (Andrej Karpathy) 就展示了一臺超級計算機,這臺超級計算機采用了 5760 個算力為 321TFLOPS 的英偉達 A100 顯卡,組成了 720 個節(jié)點,總算力突破了 1.8EFLOPS,10PB 的存儲空間。

而在2021年的特斯拉AI日上,特斯拉自研的多芯片模組化(Multi-Chip Modularized)超級計算機正式亮相,其被命名為Dojo,最初它主要服務于自動駕駛系統(tǒng)的數(shù)據(jù)標注以及訓練,后也被應用于機器人研發(fā),特斯拉的人形機器人就搭載了Dojo的D1超算芯片。

D1超算芯片是Dojo系統(tǒng)的基礎。該芯片采用7納米制造工藝,處理能力為1024 gigaflops,即每秒1024億次。1500枚D1芯片可組成陣列,而將25個陣列放在一塊晶圓上,便能形成訓練模組(Training Tile),這便是Dojo超級計算機的單元核心。

到了2022年的特斯拉AI日上,特斯拉正式公布了由D1芯片組成的Dojo ExaPod,即Dojo集群,該集群內含120個訓練模組(Training Tile)、3000個D1芯片。其擁有13TB靜態(tài)隨機存取記憶體容量以及1.3TB高傳輸頻寬記憶體容量,算力高達1.1EFLOP。

據(jù)介紹,Dojo由“圖塊”組成,工作方式與基于CPU或基于GPU的超級計算機有很大不同。特斯拉稱,Dojo的D1芯片模塊并不是由很多較小的芯片組合在一起,而是一個具有354個內核的大型芯片組成,專門針對AI和機器學習,每個Dojo機柜可容納4248個內核,10個機柜的組成的exapod可容納42480個內核。因此對于相同的數(shù)據(jù)中心占用空間來說,Dojo要比CPU或者GPU快幾個數(shù)量級。

Dojo不僅會幫助加速 FSD 訓練,還將負責管理特斯拉汽車的數(shù)據(jù)處理,根據(jù)特斯拉CEO馬斯克所說,特斯拉會同時應用英偉達H100 GPU 超算集群和 Dojo超算集群,此舉將為該公司在汽車行業(yè)提供*的計算能力。

單論H100超算集群的數(shù)量,特斯拉可能還無法和谷歌微軟相媲美,但Dojo自研芯片無疑是它*的底氣之一,在自動駕駛浪潮來臨之際,特斯拉這兩大利器,已經(jīng)足夠讓它成為目前算力最強大的公司之一,笑傲于數(shù)千家車企之中。

新銳企業(yè)

在組建超算集群這件事上,巨頭們爭先恐后,而其他新銳也不甘示弱,甚至由于他們和英偉達的良好關系,這方面反而具備了自身的優(yōu)勢。

成立于2017年總部位于紐約的CoreWeave就是這樣一家新銳企業(yè),此前專注于加密貨幣“挖礦”市場的它,在過去幾年時間實現(xiàn)了轉型,瞄準了人工智能領域,開始提供基于圖形處理單元(GPU)的云計算服務,今年早些時候,它還獲得了英偉達的1億美元投資。

根據(jù)官網(wǎng)介紹,CoreWeave目前可以通過搭建的英偉達 A100 和 A40 GPU 集群提供虛擬化算力,可讓用戶訪問超過45000個GPU,被認為是市場上運行人工智能模型的*選擇。

而這家公司近期聯(lián)合英偉達,以及新興AI企業(yè)Inflection AI,開始建造全球*的AI超算集群,該集群由22,000個英偉達H100 GPU組成,在16位精度模式下可以達到22 exaFLOPS的運算能力,使用低精度模式,其運算能力還會進一步提高,對照TOP500超級計算機列表,這臺全新的超算集群將位列第二,僅次于榜首。

而另一家接受英偉達3億美元投資的新銳企業(yè)Lambda Labs同樣不容忽視,這家美國云服務初創(chuàng)公司由Michael Balaban和Stephen Balaban兩兄弟于2012年創(chuàng)立,早年業(yè)務重點是銷售GPU驅動的計算機,后轉型為GPU云服務器租賃,公司的年收益從千萬美元的規(guī)模上升至數(shù)億美元的規(guī)模。

而Lambda labs的規(guī)模雖然不大,但其號稱能提供全世界價格*的NVIDIA A100、H100算力資源,與CoreWeave一樣是組建AI超算集群的主力之一。

這部分新銳在英偉達的支持下迅速崛起,成為了超算集群中不可忽視的一股力量。

總結

據(jù)不完全統(tǒng)計,目前國內已發(fā)布的各類大模型數(shù)量超過 100 個, 一場“百模大戰(zhàn)”已經(jīng)擺好了駕駛,而在大模型訓練的背后,最關鍵就是算力,截至 2022 年底,我國算力總規(guī)模達 180EFLOPS , 目前居全球第二位,但即便是如此龐大的算力,與目前各類模型訓練的需求仍然不成正比,算力缺口反而在今年進一步擴大。

除了美國外,英國政府斥資9億英鎊,用于構建一臺百億億級超級計算機,旨在打造全球*進的語言模型——BritGPT;人工智能初創(chuàng)公司Cerebras Systems宣布將攜手阿聯(lián)酋集團G42打造一個由9臺互聯(lián)的超級計算機組成的網(wǎng)絡,目前*臺AI超級計算機——“Condor Galaxy 1(CG-1)”開始部署,AI算力高達4 exaFLOPS(每秒4百億億次);日本經(jīng)濟產(chǎn)業(yè)省將通過其附設的研究機構引進一臺新的尖端超級計算機,其計算能力大約是現(xiàn)有機器的 2.5 倍,通過云服務將這臺超算提供給開發(fā)生成式 AI 的日本國內企業(yè)……說是千帆競逐也不為過

當我們再放眼國內,今年4月,騰訊云正式發(fā)布新一代HCC高性能計算集群,國內首發(fā)搭載英偉達最新的H800 GPU,采用業(yè)界最高的3.2T互聯(lián)帶寬;2023年阿里云將推出一款更接近云計算*形態(tài)的算力產(chǎn)品,這款被命名為通用Universal實例的產(chǎn)品進一步屏蔽了傳統(tǒng)IT的硬件參數(shù);百度新建設的陽泉智算中心是亞洲*單體智算中心,建設規(guī)模為4 EFLOPSAI算力……幾家巨頭早已把超算列上了重要日程。

更值得我們關注的是,過去的超算架構主要以 CPU 為主,但這種傳統(tǒng)基礎設施架構下的算力已經(jīng)無法滿足目前模型訓練的需求,只有建設大規(guī)模 GPU 超算集群,才能真正意義上解決大模型訓練的后顧之憂。

可以看到,老牌巨頭中,不管是微軟谷歌,還是meta AWS,把組建超算集群當作了重要目標之一,他們甚至早在10年前就發(fā)覺了這種趨勢,在這方面均已有所布局,而特斯拉CoreWeave這樣近年才崛起的新貴,更是全力押注算力,一手自研一手采購,迅速填補自身的算力缺口。

這時候問題就來了,誰能掌握算力,拿下通往未來的*張船票呢?

免責聲明:本網(wǎng)轉載合作媒體、機構或其他網(wǎng)站的公開信息,并不意味著贊同其觀點或證實其內容的真實性,信息僅供參考,不作為交易和服務的根據(jù)。轉載文章版權歸原作者所有,如有侵權或其它問題請及時告之,本網(wǎng)將及時修改或刪除。凡以任何方式登錄本網(wǎng)站或直接、間接使用本網(wǎng)站資料者,視為自愿接受本網(wǎng)站聲明的約束。聯(lián)系電話 010-57193596,謝謝。

財中網(wǎng)合作