游戲NPC成為AI應(yīng)用落地的焦點(diǎn)。
自從2014年Irrational Games解散以后,《生化奇兵(Bioshock)》系列制作人肯·列文(Ken Levine)就從公眾視野中消失了。
后來,他開了一家新的游戲工作室,開始搗鼓一個名為“敘事樂高”(Narrative Legos)的神秘項(xiàng)目。
在他看來,游戲劇情可以被拆分為小組件,就像樂高積木一樣,并將其不斷重新排列,探索出不同劇情走向的方案。也就是說,在“敘事樂高”模式下的游戲,對每個玩家來說都是完全獨(dú)特的,或者每次玩的時候都是不同的。
但是,這位知名的游戲制作人后來并沒有通過“敘事樂高”模式打造出新游戲,他的團(tuán)隊(duì)也一度傳出遭遇“產(chǎn)能地獄”。
這個想法不可行嗎?
在CES 2024上,英偉達(dá)就展示了利用Avatar Cloud Engine(ACE)技術(shù)打造的最新成果,游戲中的人物紛紛“活”了起來,與其他角色甚至真人玩家一起對話交流,并根據(jù)對話內(nèi)容做出動作。玩家每次進(jìn)入游戲時,NPC(Non-Player Character,非玩家角色)都會談?wù)摬煌膬?nèi)容,擺脫了劇本的束縛。
其他巨頭也沒有閑著。2023年底,微軟Xbox宣布與Inworld AI達(dá)成合作,將利用AI技術(shù),為游戲中的NPC注入更多的交互力和生命力,從而提升游戲的沉浸感和體驗(yàn)感。在微軟剛剛發(fā)布的2024財年第二財季(即2023自然年第四季度)財報中,游戲業(yè)務(wù)貢獻(xiàn)的收入超過了Windows。
而在國內(nèi),當(dāng)AI落地應(yīng)用成為主語時,騰訊、網(wǎng)易、*世界、百川智能、昆侖萬維以及一些AI初創(chuàng)公司都把目光投向了游戲領(lǐng)域,且不約而同地關(guān)注到了NPC。
肯·列文在十年前的設(shè)想,正在成為現(xiàn)實(shí)。
紐約大學(xué)副教授朱利安·托格利烏斯(Julian Togelius)曾說:“游戲是AI的過去、現(xiàn)在與未來?!?/p>
游戲一直都是滋養(yǎng)AI的沃土,就像試驗(yàn)田一般,見證了AI領(lǐng)域的種種嘗試與突破。也正是游戲的需求,催生了高性能顯卡,為如今大模型的繁榮發(fā)展提供了“踏腳石”。
為什么游戲NPC會成為AI應(yīng)用落地的焦點(diǎn)?
1.集多方矛盾與需求于一身的NPC
NPC幾乎存在于所有游戲當(dāng)中,但玩家已經(jīng)不滿足于現(xiàn)有NPC的表現(xiàn)。
微軟Xbox援引Inworld AI的一項(xiàng)調(diào)查稱,84%的玩家認(rèn)為NPC在游戲中很重要,79%的玩家會與NPC進(jìn)行互動,但有52%的玩家抱怨現(xiàn)在游戲內(nèi)的NPC“只會重復(fù)對話”。
這與驅(qū)動NPC的經(jīng)典技術(shù)——“狀態(tài)機(jī)”或“行為樹”有關(guān)。
在游戲AI"深度學(xué)習(xí)"階段,會更重視對真實(shí)世界生物行為的模擬,從而產(chǎn)生更豐富的行為。而行為的背后則是一條條規(guī)則,規(guī)則越完備、越細(xì)致,游戲中的NPC就看起來更“聰明”。
同樣,它們也有明顯的弱點(diǎn)。例如在有限狀態(tài)機(jī)的AI模式中,一旦玩家摸索出游戲設(shè)計(jì)者的“套路”,就能依據(jù)其邏輯總結(jié)出針對性策略。盡管這樣能帶來意想不到的有趣玩法,但也會讓玩家抓住漏洞,研制出“偷懶”的方法違背了游戲的設(shè)計(jì)初衷。
以知名游戲《只狼:影逝二度》為例,玩家只要找到一個特定的位置,便可以基本無傷地?fù)魵oss(角色類型頭目),這種操作方式也被玩家戲稱為給Boss“修腳”。
而在《荒野大鏢客:救贖 2》《巫師3:狂獵》《賽博朋克2077》等廣受好評的游戲中,盡管NPC的總體上表現(xiàn)令玩家滿意,但其背后還是依賴于豐富的游戲設(shè)計(jì),相應(yīng)的開發(fā)成本也極高。
例如,《荒野大鏢客:救贖 2》中有超過1000個NPC角色,分布在6個章節(jié)的100多個任務(wù)中。每個NPC都有自己的歌手、美術(shù)作者和配音演員,這些NPC的制作耗時近8年、開發(fā)成本接近5億美元。
肯·列文盡管是一位資深的游戲制作人,但是當(dāng)他準(zhǔn)備通過“敘事樂高”模式打造新游戲時,也要面臨開發(fā)團(tuán)隊(duì)的一切都需要“從零開始構(gòu)建”以及“漫長的開發(fā)周期”。
在游戲行業(yè)中,“跳票”是一個常見的現(xiàn)象。為了打造一個更*游戲,開發(fā)團(tuán)隊(duì)會在爭吵、妥協(xié)和焦慮中努力推動進(jìn)度向前,但是誰也無法保證游戲可以按時完成。有的從業(yè)者甚至認(rèn)為,加班、延期是游戲研發(fā)的“必要之惡”,是創(chuàng)造出一款精品游戲的必經(jīng)之路。
從需求側(cè)來說,玩家越來越高的期待和日益增長的開發(fā)成本之間的矛盾,體現(xiàn)在了游戲NPC上。
從供給側(cè)來說,第三波AI浪潮中有兩條明顯的研究主線——決策AI和生成式AI。如果說決策AI與生成式AI是實(shí)現(xiàn)通用人工智能(AGI)的必由之路,那么游戲NPC正是其重要的應(yīng)用對象。
“隨著底層模型的不斷進(jìn)步,AI生成內(nèi)容日益豐富。這將進(jìn)一步提升AI的兩大能力,即智能決策與驅(qū)動能力,以及跨模態(tài)理解與生成能力?!彬v訊AI Lab相關(guān)負(fù)責(zé)人說。
這兩大能力,一方面可以直觀在游戲NPC上體現(xiàn),一方面也是各大AI公司(團(tuán)隊(duì))在應(yīng)用過程中需要證明和表現(xiàn)的。相比晦澀的論文和評選標(biāo)準(zhǔn)各異的榜單,游戲NPC在某種程度上,更能展現(xiàn)一家AI公司(團(tuán)隊(duì))的應(yīng)用落地能力。
2024年1月9日,百川智能發(fā)布角色大模型Baichuan-NPC,深度優(yōu)化了“角色知識”和“對話能力”,并推出了“角色創(chuàng)建平臺+搜索增強(qiáng)知識庫”的定制化解決方案。值得注意的是,這也是百川智能發(fā)布的*個垂類應(yīng)用大模型。
為什么大模型公司會優(yōu)先選擇在游戲行業(yè)落地?百川智能技術(shù)聯(lián)創(chuàng)Richard告訴「甲子光年」:“游戲是很多新技術(shù)的*落腳點(diǎn)。此外,游戲也是較好的變現(xiàn)方式?!?/p>
《2023年中國游戲產(chǎn)業(yè)報告》顯示,2023年國內(nèi)游戲市場實(shí)際銷售收入3029.64億元,同比增長13.95%,首次突破3000億元關(guān)口;用戶規(guī)模6.68億人,同比增長0.61%,為歷史新高。
“如果能夠在游戲領(lǐng)域取得成功,那么這些技術(shù)在其他行業(yè)應(yīng)用時可能會形成降維打擊?!盧ichard說。
由巨人網(wǎng)絡(luò)前CEO吳萌創(chuàng)立的新公司MiAO,也在研究游戲NPC,其AI組負(fù)責(zé)人告訴「甲子光年」,當(dāng)具有強(qiáng)大世界常識的大模型以及具有記憶能力、任務(wù)規(guī)劃能力的通用智能體概念出現(xiàn)后,“能夠生成游戲內(nèi)容的AIGC”以及“能夠理解游戲世界的智能NPC”是能直接想到的落地場景。
騰訊AI Lab認(rèn)為,游戲在AI的發(fā)展歷程中扮演了重要角色,主要是源于游戲環(huán)境的三大特點(diǎn):首先,游戲具有明確的勝負(fù)與核心指標(biāo),便于測試和迭代AI性能;其次,在虛擬世界中獲取AI訓(xùn)練所需的數(shù)據(jù)更便捷,成本更低、迭代效率更高,推進(jìn)了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)技術(shù)的發(fā)展;第三,豐富的游戲類型為AI研究提供了大量的測試環(huán)境,推動了智能體博弈和協(xié)作等前沿研究發(fā)展。
2.如何讓NPC更擬人
如何讓NPC更擬人?這個問題有了最新的回答。
英偉達(dá)在CES 2024展示的玩家與NPC自然交流的成果來自英偉達(dá)開發(fā)者平臺的合作者Convai,Convai使用了ACE平臺中的Audio2Face和Riva兩大功能。在該場景下,玩家的語音輸入被傳送至Audio2Face的語音自動識別模型中,將語音轉(zhuǎn)換為文本,放入大模型以生成角色的實(shí)時響應(yīng)。之后,使用文本轉(zhuǎn)語音模型(Riva)發(fā)出響應(yīng),生成動畫模型以創(chuàng)建逼真的唇形同步,最后將動態(tài)角色進(jìn)行渲染并傳回至游戲場景中。
Avatar Cloud Engine細(xì)分功能
與微軟合作的Inworld AI則是讓文字、聲音及圖像成為相互訓(xùn)練的數(shù)據(jù),并在以GPT-3為核心大模型的基礎(chǔ)上,整合了多個大模型、音頻模型以及30多個機(jī)器學(xué)習(xí)模型,打造了一個多模態(tài)開發(fā)引擎——“角色引擎”(Character Engine),著眼于構(gòu)建一個模擬人腦的復(fù)雜系統(tǒng)。為了讓用戶和開發(fā)者快速構(gòu)建并在游戲或應(yīng)用中部署 AI 角色,Inworld構(gòu)建了AI虛擬角色的生成平臺——Inworld Studio,開發(fā)者無需任何代碼,輸入自然語言就能快速創(chuàng)建NPC。
在ChatGPT發(fā)布之初,就有玩家嘗試將其接入了部分游戲,希望實(shí)現(xiàn)和游戲NPC的“自然交流”。
但是,要想讓NPC的表達(dá)更像人,模型的基礎(chǔ)能力和角色扮演一致性非常重要。
模型的基礎(chǔ)能力既包括模型的通用智能水準(zhǔn),還包含角色知識、對話能力、情節(jié)演繹以及邏輯推理四個專項(xiàng)能力。而強(qiáng)化這些能力的*方式是在預(yù)訓(xùn)練階段通過高質(zhì)量數(shù)據(jù)集進(jìn)行針對性訓(xùn)練。
角色扮演一致性問題指的是,通用語言模型在角色“演繹”過程中,非常容易跳出“角色設(shè)定”變回“智能助手”或做出不符合角色人設(shè)的言行,即業(yè)界所說的OOC問題(角色言行偏離原有設(shè)定,如:古代人物談?wù)摤F(xiàn)代事物)。
為了解決這兩方面的問題,百川智能角色大模型Baichuan-NPC通過高質(zhì)量數(shù)據(jù)集進(jìn)行針對性訓(xùn)練,并將思維鏈對齊技術(shù)引入到角色模型對齊中,使用帶有思維鏈的數(shù)據(jù)構(gòu)造方式和帶有思維鏈對齊的強(qiáng)化對齊方法,雙管齊下讓模型的思考過程和思考之后的行動表現(xiàn)更接近人類,大幅提升了角色一致性。
國內(nèi)創(chuàng)業(yè)公司MiAO近期則提出了一種名為LARP(Language Agent for Role Play)的開放世界游戲角色扮演智能體框架。LARP的重點(diǎn)是將開放世界游戲與語言智能體相融合,利用模塊化方法進(jìn)行記憶處理、決策以及從互動中不斷學(xué)習(xí)。
MiAO的架構(gòu)包含了一組較小的語言模型,每個模型都針對不同的領(lǐng)域進(jìn)行了微調(diào),以分別處理各種任務(wù)。這種設(shè)計(jì)為開發(fā)開放世界角色扮演游戲的語言智能體提供了新的經(jīng)驗(yàn)和視角。
MiAO AI組負(fù)責(zé)人告訴「甲子光年」:“給NPC建立人格,模擬思維、情緒和認(rèn)知過程,讓具有強(qiáng)大先驗(yàn)知識的語言模型做心理活動推演,再通過智能體的復(fù)雜任務(wù)規(guī)劃和執(zhí)行決策的能力,讓NPC在一個開放世界模擬環(huán)境里產(chǎn)生社會活動,給玩家分配獨(dú)特的任務(wù),建立社會鏈接,影響數(shù)值結(jié)算,這是我們的一個研究方向?!?/p>
但是,如何平衡NPC的個性和游戲的通用規(guī)則呢?
MiAO的解決方案是——外掛的數(shù)據(jù)庫和集體意識。世界觀、游戲規(guī)則以及其它常識內(nèi)容,將通過外掛數(shù)據(jù)庫平等地分享給每一個NPC,而一些在運(yùn)行時中由NPC個性化而產(chǎn)生的內(nèi)容將通過集體意識傳遞,類似于墨水在水中渲開的方式。而NPC的獨(dú)特個性則是由不同的指令以及屬性來決定,NPC的個性和游戲的通用規(guī)則是相互影響又相對獨(dú)立的關(guān)系。
“如果AI能在復(fù)雜策略游戲中學(xué)會類似于人的長期策略規(guī)劃和協(xié)作能力,就可以代表多智能體決策最高水準(zhǔn)。”騰訊AI lab相關(guān)負(fù)責(zé)人說。
3.目標(biāo):開放世界
雖然AI NPC的前景可觀,但將大模型及相關(guān)技術(shù)集成到成熟的游戲研發(fā)環(huán)節(jié),依然充滿挑戰(zhàn)。
游戲開發(fā)通常會涉及到各種非文字表述的標(biāo)準(zhǔn)化資產(chǎn),如果游戲開發(fā)者想利用語言模型或者智能體做游戲內(nèi)容生成,那么將游戲資產(chǎn)、運(yùn)行信息合理地轉(zhuǎn)化成語義表達(dá)將會成為落地過程中的問題。
面對無限擴(kuò)展的開放世界,AI NPC要能夠靈活適應(yīng)各種復(fù)雜的環(huán)境。如果游戲已經(jīng)運(yùn)行了很長時間,AI NPC已經(jīng)積累了一定的長期記憶,開發(fā)者如何讓AI NPC在這種長周期情境下自我成長、持續(xù)進(jìn)化也是一大技術(shù)難題。同時,現(xiàn)階段語言模型的長上下文理解能力還有很大提升空間。
另外,高質(zhì)量的AI工具和平臺API調(diào)用費(fèi)用產(chǎn)生的經(jīng)濟(jì)門檻,也限制了一些中小游戲開發(fā)者使用。
MiAO AI組負(fù)責(zé)人告訴「甲子光年」:“目前業(yè)界更多還從prompt Engineering(提示工程)、Fine-Tune(微調(diào))等模型層面去解決,涉及到系統(tǒng)設(shè)計(jì)整體解決方案的都挺少的。因?yàn)楦鉇I的和搞游戲的是兩撥人,兩撥人各自去理解對方的需求和坑都是有失真的。就我個人來看,行業(yè)缺的不是多強(qiáng)大的模型,而是解決方案?!?/strong>
有的問題可以通過構(gòu)造數(shù)據(jù)集進(jìn)行模型訓(xùn)練來解決,有的問題則需要設(shè)計(jì)系統(tǒng)來解決,還有的問題得靠市場解決。
MiAO AI組負(fù)責(zé)人還提出了一個觀點(diǎn):“比起不夠擬人,把NPC設(shè)計(jì)得太過擬人也是不合適的。游戲追求的是好玩,而不是你的NPC有多擬人?!?/strong>
而決定游戲是否“好玩”,除了NPC的擬人程度外,游戲世界觀的設(shè)定及情節(jié)線索的設(shè)置也是關(guān)鍵因素,在文生圖、文生視頻、文生3D之后,文生開放世界(text-to-openworld)也受到了業(yè)界的關(guān)注。
在去年12月舉行的百度云智大會·智算大會上,AI游戲引擎初創(chuàng)公司RPGGO就展示了其研發(fā)的生成式AI游戲引擎——Zagii Engine。只需簡單的文本輸入,玩家即可用AI工具創(chuàng)作出一個完整的多人動態(tài)角色扮演劇本殺游戲。
長期關(guān)注“AI+游戲”領(lǐng)域的Monolith礪思資本投資人表示,看好利用大模型實(shí)現(xiàn)玩家與NPC的高質(zhì)量交互,以及AI在游戲領(lǐng)域的應(yīng)用,“AI的價值就在于它會擴(kuò)大未來Gameplay(游戲性)的供給。如果這件事能實(shí)現(xiàn),那么游戲的供給就會從完全的PGC到PUGC,甚至UGC,這將會對游戲行業(yè)造成巨大改變?!?/p>
AI NPC成為了現(xiàn)階段AI在游戲中應(yīng)用的焦點(diǎn),但是從長遠(yuǎn)來看,“開放世界”才是AI與游戲結(jié)合的*目標(biāo)。
在生成式AI的大潮下,“開放世界”這個概念在游戲領(lǐng)域被再一次激活。「甲子光年」近期對話了數(shù)家從事“AI+游戲”公司的負(fù)責(zé)人,最后話題不約而同地轉(zhuǎn)向了“開放世界”,不過“開放世界”并不僅僅局限于現(xiàn)在的“開放世界游戲”,而是類似《頭號玩家》《三體》里的另一個平行世界。
“創(chuàng)造、健康、快樂”是百川智能創(chuàng)始人、CEO王小川根據(jù)馬斯洛需求層次提出的三個落地方向。其中,創(chuàng)造對應(yīng)生產(chǎn)力工具、健康對應(yīng)醫(yī)療,快樂則對應(yīng)一個平行于現(xiàn)實(shí)世界的“開放世界”。
“大模型讓我們有了造人的可能?!盧ichard告訴「甲子光年」。
RPGGO也是致力于打造“開放世界”的一員。
RPGGO聯(lián)合創(chuàng)始人李嘉英畢業(yè)于斯坦福大學(xué),是個愛玩游戲的“95后”。去年,她毅然辭掉大廠的工作,創(chuàng)立了RPGGO,專注基于生成式AI的“text-to-openworld”。
李嘉英表示,RPGGO想要打造一個開放世界,搭建一個“把一句話變成一個世界書”的AI開放世界引擎,讓游戲開發(fā)者和普通的內(nèi)容創(chuàng)作者、游戲玩家,都能夠利用這個引擎,將自己的想法變?yōu)橐粋€世界觀,構(gòu)建平臺讓每個人都能擁有自己的網(wǎng)頁,網(wǎng)頁上是自己的AI游戲。
“可能大家的最終目標(biāo)并不是游戲,游戲只是一個過程,一個落腳點(diǎn)。我真正想做的也不是游戲,而是開放世界,但我需要一個新領(lǐng)域下的落腳點(diǎn)?!崩罴斡⑻寡?。
「甲子光年」近期了解到,昆侖萬維旗下Play for Fun游戲工作室自研的* AI 游戲《Club Koala》目前正處于高強(qiáng)度開發(fā)測試中,首次Beta版測試預(yù)計(jì)將于今年3月份展開,這款游戲?qū)⒁搿皳碛凶晕乙庾R”的AI NPC。
《Club Koala》也有開放世界元素,游戲的一大核心組成部分就是游戲編輯器——Koala Editor。Koala Editor 面向的是沒有開發(fā)知識和經(jīng)驗(yàn)的普通玩家,編輯過程實(shí)現(xiàn)了完全零代碼。Koala Editor 里還配備有完備的功能組件、素材箱這類輔助工具,提供創(chuàng)作資源幫助玩家快速構(gòu)建游戲。
游戲行業(yè)對開放世界的追求,和當(dāng)前全球AI企業(yè)苦苦追求的AGI*夢想可謂殊途同歸。
真正實(shí)現(xiàn)開放世界,幾乎意味著AI已經(jīng)能夠像人一樣,在需要想象力時刻無限發(fā)散思想;在需要精確解決問題的時刻收斂思維、力出一孔;在需要獨(dú)立行動時自發(fā)搜索信息、尋找工具解決問題;在需要團(tuán)隊(duì)合作時自發(fā)結(jié)成社會組織。
這不正是AGI在虛擬世界的投射嗎?
前途是美好的,但道路是曲折的。
Richard對AI未來的發(fā)展趨勢有自己的理解,他將AI劃分為四個等級:
L1,即模型,即AI具有一定泛化能力,能夠初步解決一些通用問題;
L2,即智能體。該階段,AI具有三個標(biāo)志性能力:使用工具(use tool)、規(guī)劃(planning)、長期記憶(memory)。例如,金融從業(yè)者每天都要根據(jù)股價波動實(shí)時調(diào)整投資策略,股價大漲他心情會變好,反之會很沮喪。但如果虛擬世界里,金融從業(yè)者沒有這種自發(fā)的從外部獲取信息的能力,便算不上一個鮮活的人。
L3,即類人智能體。AI會像人類一樣有實(shí)時狀態(tài)(stateful),能夠針對不同情境發(fā)生的不同事件、人物給出不同的反應(yīng)。從技術(shù)上看,開發(fā)者可能會在這一階段為AI注入能量值、財富值、心情值等不同參數(shù),“每一次玩家找到這個NPC,都能看到NPC不同的狀態(tài)”。
L4,即社會化類人智能體。該階段,AI能夠像人一樣和其他AI建立不同的關(guān)系,不同的AI會在整個社交網(wǎng)絡(luò)中承擔(dān)不同的角色,彼此合作形成社團(tuán)等各類組織。
“現(xiàn)在大部分公司都還在模型階段,而且模型也沒做好。”Richard分享道。
目前,基座模型的能力依然限制著游戲中世界觀和大量NPC的自由度,模型能力的提升依然帶來無限想象力。
OpenAI創(chuàng)始人、CEO薩姆·奧爾特曼(Sam Altman)近期在達(dá)沃斯論壇上透露:“若GPT-4目前只能完成人類任務(wù)的10%,那么GPT-5預(yù)計(jì)能處理15%至20%的任務(wù)?!蓖瑫r,他相信AGI會在“不久的將來”出現(xiàn)。
很多時候,技術(shù)的進(jìn)階只是變革的開始,還有很多技術(shù)之外的事情需要人類自己去厘清,還有很多路徑需要人類自己去選擇。
但路的盡頭有一個確定的終點(diǎn),至于如何抵達(dá),李嘉英的回答是:“用技術(shù)把Magic做到*?!?/p>