一場AI大模型追逐賽,激戰(zhàn)正酣。
4月11日,阿里云旗下大模型產(chǎn)品通義千問面世。阿里云峰會上,阿里巴巴集團董事會主席兼CEO張勇首次以阿里云智能CEO的身份亮相,介紹了通義千問的最新進展。
一向以正裝公開示人的張勇,穿了一身休閑裝,呼應其新身份——去年年底,他宣布親自掛帥阿里云,“躬身”業(yè)務四個多月后,張勇帶來了*待檢驗的作品通義千問。他表示,阿里巴巴所有產(chǎn)品未來都將接入通義千問大模型,進行全面改造。
ChatGPT的問世和迭代速度,重新定義了技術變化的日新月異。在阿里之前,百度已率先“交卷”,推出基于新一代大語言模型研發(fā)的生成式AI產(chǎn)品文心一言,并展示了其在文學創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理推算、中文理解、多模態(tài)生成五個使用場景中的綜合能力。
更多不甘落后的互聯(lián)網(wǎng)大廠和創(chuàng)業(yè)者正在路上。
3月底,騰訊總裁劉熾平在財報電話會上說,騰訊正在加速推進大模型混元;3月29日,360集團創(chuàng)始人周鴻祎在一次活動上預演示了360尚未正式發(fā)布的大模型應用產(chǎn)品,他稱:“GPT是場新工業(yè)革命,其意義超越了互聯(lián)網(wǎng)、iPhone的發(fā)明?!?/p>
《中國企業(yè)家》從接近字節(jié)跳動人士獲悉,字節(jié)跳動版的ChatGPT已在內(nèi)測,但內(nèi)測之后,體驗效果不好,預計在9月上線,也有可能提前。不久前,原阿里達摩院大模型M6帶頭人楊紅霞加入字節(jié)AI lab,參與語言生成大模型的研發(fā),直接向副總裁楊震原匯報。
隨著時間的推進,行業(yè)的緊迫感越來越強,節(jié)奏越來越密集,僅在4月10日這一天,就有3家公司宣布推出大模型及應用產(chǎn)品:搜狗創(chuàng)始人王小川正式官宣入場大模型創(chuàng)業(yè),年底發(fā)布大模型產(chǎn)品,已獲得5000萬美元啟動資金;商湯宣布推出商湯日日新大模型;昆侖萬維和奇點智源合作自研的國產(chǎn)大語言模型將于4月17日啟動邀請測試。
這場AI大模型之爭,讓沉寂了很久的中國互聯(lián)網(wǎng)市場突然變得亢奮,即使在當年“百團大戰(zhàn)”、生鮮電商纏斗最激烈的時刻,頭部大廠也沒有拿出“All in”押注未來的架勢。對標ChatGPT的大模型,顯然被大廠當作開啟下個時代的鑰匙——誰能*觸摸到AI生態(tài)的潛能邊界,誰就能掌握話語權。
然而,訓練大模型并非易事,大廠和創(chuàng)業(yè)者們互相競逐背后是一場財力、技術、算力、人才等資源的綜合較量。但在大廠內(nèi)部看來,此輪關于大模型的創(chuàng)業(yè),如果只是一個大廠的游戲,說明中國的創(chuàng)新還是沒有走出原來的怪圈,AI大模型創(chuàng)業(yè)應該是一個萬眾創(chuàng)新的游戲。
01、技術、算力、人才的角逐
從發(fā)布信息來看,阿里對通義千問的定位,已經(jīng)不局限于簡單的AIGC概念上,而是如何讓AI的能力真正應用在更實際、更多樣的場景上。
阿里的大模型分內(nèi)外部兩個路線——一方面將與集團內(nèi)部產(chǎn)品結合,可以預見,通義千問將對天貓、淘寶、高德、釘釘?shù)葮I(yè)務應用帶來直接的商業(yè)價值,據(jù)了解,釘釘、天貓精靈將率先接入測試,將在評估認證后正式發(fā)布新功能;另一方面,阿里云表示將開放通義千問的能力,幫助每家企業(yè)基于通義千問打造具備自己行業(yè)能力的專屬大模型。
阿里大模型由阿里云智能CTO周靖人負責,周靖人畢業(yè)于中國科學技術大學,獲哥倫比亞大學計算機博士學位,曾任微軟研發(fā)合伙人,2016 年加入阿里,任阿里云首席科學家。他告訴《中國企業(yè)家》,阿里選擇在此刻公布通義千問,并非完全為了“趕時髦”。
“阿里從2019年開始,就在投入各種各樣訓練大模型的研發(fā)中。但ChatGPT以一個非常好的產(chǎn)品形態(tài)出現(xiàn),教育了全社會,現(xiàn)在的確是一個很好的時間節(jié)點。如果我們在去年9月、10月講預訓練大模型,也許大家都不會感興趣?!敝芫溉苏f。
事實上,無論是阿里還是百度,能快速推出自己的大模型及應用,都源于兩家在過往的技術積累。
2019年,百度便推出了文心大模型ERNIE 1.0。目前,ERNIE 3.0每天接受數(shù)十億次用戶的搜索請求,這讓文心一言能夠基于一個龐大的、高效的數(shù)據(jù)池,快速地學習和改進;阿里則于2021年連續(xù)發(fā)布語言大模型 Plug(后更名為AliceMind)和多模態(tài)大模型M6,去年9月,兩個大模型合并為阿里通義大模型。
再看看文心一言由的團隊——由百度CTO王海峰出任總指揮,團隊核心成員還包括百度集團副總裁吳甜、百度技術委員會主席吳華等人。王海峰先后負責百度搜索、百度地圖、百度翻譯、百度智能云等業(yè)務。他同時是自然語言處理領域世界上*影響力的國際學術組織ACL50多年歷史上首位華人主席。
除了人才外,大模型訓練也堪稱“暴力美學”,需要有大算力、大數(shù)據(jù)和大模型,每一次訓練任務都耗資巨大。
據(jù)《中國企業(yè)家》了解,文心一言大模型的訓練數(shù)據(jù)包括萬億級網(wǎng)頁數(shù)據(jù)、數(shù)十億的搜索數(shù)據(jù)和圖片數(shù)據(jù)、百億級的語音日均調(diào)用數(shù)據(jù),以及5500億事實的知識圖譜等。
此外,浙商證券的一份研報指出,支撐ChatGPT算力基礎設施至少需要上萬顆英偉達GPU A100,與之相對應,AlphaGO只需要8塊GPU。
這只是*門檻。大模型的爆發(fā)會導致訓練的應用場景越來越多,對訓練算力的需求會大幅增長,增長幅度能達到10倍甚至100倍。
02、大模型帶來的產(chǎn)業(yè)變革
ChatGPT及相關的大模型應用,除了給個人帶來工作是否會被取代的擔憂外,也給產(chǎn)業(yè)帶來很多變革。
在李彥宏看來,當人類進入人工智能時代,IT技術的技術棧發(fā)生了根本性變化。過去基本分為三層:芯片層、操作系統(tǒng)層和應用層。而現(xiàn)在可以分為四層:芯片層、框架層、模型層和應用層。百度目前是在這四層進行全棧布局的人工智能公司。
談及全棧布局,百度智能云云計算產(chǎn)品解決方案和運營部總經(jīng)理宋飛告訴《中國企業(yè)家》:“AI產(chǎn)品對于資源的要求越來越高,只有每一層都有自主可控的東西,才有可能縱深地做持續(xù)閉環(huán)的優(yōu)化?!?/strong>
宋飛舉例,如果芯片不是自己的,你在優(yōu)化到底下硬件的時候,就是個黑盒了,能發(fā)揮的空間*是有限的,你有什么需求它也不一定聽你的。如果用自己的框架,有什么需求就很快可以調(diào)整。全棧的布局和專門的優(yōu)化,是百度在基礎架構的核心優(yōu)勢。
AI大模型的盛行,也在衍生眾多的商業(yè)機會。
在李彥宏看來,對于大部分創(chuàng)業(yè)者和企業(yè)來說,真正的機會并不是從頭開始做ChatGPT和文心一言這樣的基礎大模型,這很不現(xiàn)實,也不經(jīng)濟,重復造輪子是沒有意義的。而是基于通用大語言模型,搶先開發(fā)重要的應用服務,“就像移動互聯(lián)網(wǎng)時代,最成功的商業(yè)產(chǎn)品不見得是安卓和iOS,而是基于安卓和iOS開發(fā)的微信、淘寶、抖音等各種超級應用?!?/p>
阿里持相同的觀點。
周靖人表示,阿里將開放通義千問的能力,幫助每家企業(yè)基于“通義千問”打造具備自己行業(yè)能力的專屬大模型。未來每一個企業(yè)在阿里云上既可以調(diào)用通義千問的全部能力,也可以結合企業(yè)自己的行業(yè)知識和應用場景,訓練自己的企業(yè)大模型。比如,每個企業(yè)都可以有自己的智能客服、智能導購、智能語音助手、文案助手、AI設計師、自動駕駛模型等。
王海峰認為,大模型時代將產(chǎn)生三大產(chǎn)業(yè)機會:
*類是新型云計算公司。大模型將根本性地改變云計算行業(yè)的游戲規(guī)則。之前企業(yè)選擇云廠商更多看算力、存儲等基礎云服務。未來,更多會看框架好不好、模型好不好,以及模型、框架、芯片、應用這四層之間的協(xié)同。
第二類是進行行業(yè)模型精調(diào)的公司。這是通用大模型和企業(yè)之間的中間層,他們具有行業(yè)Know-how,調(diào)用通用大模型能力,為行業(yè)客戶提供解決方案。
第三類是基于大模型底座進行應用開發(fā)的公司,即應用服務提供商。目前,基于文本生成、圖像生成、音頻生成、視頻生成、數(shù)字人、3D等場景,已經(jīng)涌現(xiàn)出很多明星創(chuàng)業(yè)公司。
03、反思、挑戰(zhàn)和局限
略顯遺憾的是,目前多數(shù)中國大公司在做的大模型和基于模型的應用,均是追隨OpenAI的腳步,而且隨著ChatGPT的驚人迭代速度,差距越拉越大。
李彥宏在接受36氪采訪時表示,百度“文心一言”在研發(fā)階段時,百度技術團隊曾與ChatGPT進行對比測試,當時差距是40分的水平,一個月能追得上??蛇^了一個月,技術團隊再次測試后,發(fā)現(xiàn)差距反而拉大了。
周靖人也坦誠承認,目前通義千問與ChatGPT仍有差距,“GPT還是屬于各方面都*的地位”。但他認為“你追我趕”是科技進步的必然階段,“今天別人的技術比較*,我們就需要取長補短。也許下一個階段,通義千問也能貢獻自己的一系列技術創(chuàng)新”。
在此前的采訪中,周鴻祎也曾告訴《中國企業(yè)家》,其實國內(nèi)也很早關注到GPT-1,然而當時的關注還是抱著一種實用主義的觀點,認為應該找場景,要解決自己業(yè)務中遇到的問題。所以,中國的人工智能都用來解決人臉識別、圖像濾鏡做得更漂亮。
“如果一個人工智能技術和自己的業(yè)務不能結合,可能就會認為沒太大意義,所以,沒有人想到用GPT NLP的模型解決通用知識理解和推理的問題,更沒有人想到大算力大數(shù)據(jù)做出一個大模型,能夠產(chǎn)生一種連OpenAI自己都想不到的智能化的結果?!敝茗櫟t感慨道。
當然,中國更廣闊的市場需要中國自己的大模型,中國廠商也有天然的本土優(yōu)勢。只是放到中西對比這一更大維度的競爭,國內(nèi)大廠也有自己的局限。
周鴻祎認為,要把ChatGPT訓練好,要用全人類的知識,一定要有開放的思路。全世界中文網(wǎng)頁大概是其他語言網(wǎng)頁的1/10,書籍的數(shù)目也不足。此外,國內(nèi)移動互聯(lián)網(wǎng)的迅猛發(fā)展,也在制造更多的數(shù)據(jù)孤島。
“國外雖然APP也取代了Web,但國外很多APP基本保留了Web版,用瀏覽器還是能在網(wǎng)頁之間跳來跳去,能夠自由使用。國內(nèi)信息都被APP私有化了,如果這些巨頭互相把握著,誰的數(shù)據(jù)都不全,最后訓練出來的大腦肯定能力上是比不上的。”周鴻祎表達了一定程度的悲觀。
事實上,除了語料庫之外,算力也是一個巨大的挑戰(zhàn)。2022年8月底,美國政府宣布禁止美國公司向中國(包括中國香港地區(qū))和俄羅斯出口高端GPU,設定的紅線是:算力超過4800 TOPS,且?guī)拏鬏斔俾食^600 GB/秒,受限產(chǎn)品就包括英偉達A100和后續(xù)產(chǎn)品H100。
面向未來的AI大模型,中國互聯(lián)網(wǎng)大廠還需更大的勇氣和努力,去突破算力、語料、人才等各種限制。