上個(gè)月剛宣布離職谷歌的Transformer論文作者“Llion Jones”,最新動(dòng)向塵埃落定。
據(jù)金融時(shí)報(bào)消息,Llion Jones將和前谷歌大腦*研究人員David Ha,共同在東京創(chuàng)辦人工智能研究公司Sakana AI。據(jù)透露公司將聚焦做生成式大模型,創(chuàng)建一種基于“自然啟發(fā)的新型智能基礎(chǔ)模型”。
消息一出,圈內(nèi)著名話嘮、英偉達(dá)科學(xué)家Jim Fan也*時(shí)間發(fā)來賀電。
Llion Jones作為前谷歌科學(xué)家,他與其他七名作者一起發(fā)表的論文《Attention is All You Need》如今已經(jīng)成為大部分大模型的“奠基研究”,引用次數(shù)更是高達(dá)8w+。目前OpenAI的GPT模型、谷歌的Bard模型均以Transformer架構(gòu)進(jìn)行設(shè)計(jì)。
另一位創(chuàng)始人David Ha,則擁有“谷歌日本人工智能研究部前負(fù)責(zé)人”和“Stability AI前研究主管”雙重身份。
Llion Jones(左)David Ha(右)
大模型領(lǐng)域火熱有目共睹,除去像Google、Microsoft、meta、OpenAI等不差錢的巨頭玩家,還有包括Cohere、Personter.AI、Anthropic等在內(nèi)的眾多初創(chuàng)公司。
在外界看來,Sakana AI的大模型選擇以Transformer為架構(gòu)也是順理成章的事,但這次兩人打算摒棄Transformer,玩點(diǎn)不一樣的。
在采訪中,Jones和Ha指出,當(dāng)前AI大模型的建構(gòu)就像工程學(xué),神經(jīng)網(wǎng)絡(luò)就像一座橋,它們被設(shè)計(jì)成脆弱且不可改變的結(jié)構(gòu)。
比如,像GPT這類大模型雖能力極強(qiáng),但也很容易被黑客操縱生成有害或危險(xiǎn)的內(nèi)容,就像手機(jī)越獄一樣。而以目前的技術(shù),想要避免這種情況的發(fā)生,就需要開發(fā)者手動(dòng)更新模型參數(shù)。
簡(jiǎn)單來說,因?yàn)槟P涂蚣鼙辉O(shè)計(jì)的非常嚴(yán)格,創(chuàng)新也變得很困難。
相比之下,自然系統(tǒng)中的集體智能則更敏感響應(yīng)環(huán)境變化。因此,兩人希望能利用演化計(jì)算的原理來構(gòu)建人工智能模型,使其像自然系統(tǒng)一樣可適應(yīng)變化、節(jié)省成本并提高安全性。
具體來說,就是通過制造多個(gè)較小的人工智能模型,每個(gè)模型都有自己獨(dú)特的優(yōu)勢(shì)和較小的數(shù)據(jù)集,讓他們像魚群一樣協(xié)同起來,共同解決一個(gè)問題。
這個(gè)理念也反應(yīng)在公司名字上,Sakana來源于日語中魚的一個(gè)單詞“さ yl”(sa-ka-na),意在“將一群魚聚集在一起,用簡(jiǎn)單的規(guī)則組成一個(gè)連貫的實(shí)體”的想法,類似于自然界中的進(jìn)化論、集體智慧等概念 。
在公司官網(wǎng)logo設(shè)計(jì)上,可以看到一群魚在游走,其中競(jìng)爭(zhēng)對(duì)手就像一只只黑色的魚,依循同一方向,而Sakana是那只紅色的魚,朝向另一個(gè)截然不同的方向,也代表著兩人創(chuàng)立公司的初衷就是想玩點(diǎn)新的。
根據(jù)官網(wǎng)介紹,這種新型AI模型主要以兩種形式落地。一方面像大模型用于生成文本、圖像、代碼等多個(gè)模態(tài)的內(nèi)容。另一方面也能給ChatGPT這樣產(chǎn)品提供支持、協(xié)同更多大模型產(chǎn)品工作,實(shí)現(xiàn)能力上的“無縫銜接”。
事實(shí)上,這一次的另辟蹊徑也并非突然奇想。創(chuàng)始人之一David Ha在過去一段時(shí)間已發(fā)布多篇關(guān)于“深度學(xué)習(xí)出現(xiàn)集體智慧創(chuàng)意研究”的論文和博客。
比如,他在2021年發(fā)表的論文《The Sensory Neuron as a Transformer: Permutation-Invariant Neural Networks for Reinforcement Learning》中提出一種AttentionNeuron的網(wǎng)絡(luò)層,可以將每個(gè)輸入通道連接到一個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)模塊,每個(gè)模塊只處理各自的局部輸入,然后通過注意力機(jī)制交流信息。
論文中,研究人員將一個(gè)完整的圖像進(jìn)行打亂切塊,然后輸入到多個(gè)局部神經(jīng)網(wǎng)絡(luò)模塊中,每個(gè)模塊只看到一小塊圖像,然后通過注意力機(jī)制整合所有模塊的輸出。
實(shí)驗(yàn)表明,在自動(dòng)駕駛CarRacing環(huán)境中,即使輸入的圖像塊已被隨機(jī)打亂順序,AttentionNeuron在沒學(xué)習(xí)過環(huán)境內(nèi)容的情況下,也可以實(shí)現(xiàn)一定程度上的自動(dòng)駕駛,表現(xiàn)出更好的魯棒性和泛化能力。
最近,David Ha還與DeepMind科學(xué)家Yujin Tang合著了一篇論文《Collective Intelligence for Deep Learning: A Survey of Recent Developments》,系統(tǒng)探討了機(jī)器學(xué)習(xí)中越來越受歡迎的基于復(fù)雜系統(tǒng)的想法,例如群體智能、自組織、緊急行為等。
除此以外,對(duì)于為何沒有把公司設(shè)立在火熱的硅谷,兩人也有自己的想法。
Jones表示,谷歌和其他公司現(xiàn)在都把大量精力放在技術(shù)商業(yè)化層面,這意味著進(jìn)行前沿研究的空間會(huì)越來越小。創(chuàng)立Sakana的主要目標(biāo)是想專注做研究,選擇東京一方面可以避免受到“硅谷炒作AI”的影響,另一方面也有當(dāng)?shù)卣呋蓊櫟脑颉?/p>
總結(jié)一句話就是:不搞炒作,專心做LLM研究。
截至目前,兩人并未透露過多關(guān)于融資的消息,僅表示會(huì)考慮這方面。
不過,Transformer論文的八位作者出走之后,不少人都選擇了創(chuàng)業(yè),成為這波生成式AI浪潮中的重要?jiǎng)?chuàng)業(yè)力量,估值也水漲船高。
此前,Transformer八位作者之一“Noam Shazeer”創(chuàng)立的Character.AI,在今年三月完成1.5億美元A輪融資,僅用16個(gè)月時(shí)間就成為一家獨(dú)角獸公司。
另外一名作者Aidan Gomez,他在2019年創(chuàng)辦的Cohere,分別于2021年9月和2022年2月先后獲得總計(jì)2億多美元融資,投資者不乏圖靈獎(jiǎng)獲得者Geoffrey Hinton、知名人工智能研究員李飛飛、UC伯克利大牛Pieter Abbeel等大牛。
今年6月,Cohere更是拿到了由英偉達(dá)等參投的2.5 億美元融資,當(dāng)前估值已達(dá)20億美元。
參考這些Transformer協(xié)作者創(chuàng)業(yè)伊始就獲得百萬美元融資的案例,媒體和外界猜測(cè)Sakana AI的融資應(yīng)該很快會(huì)有進(jìn)展。
巧合在于,一位網(wǎng)友按耐不住留言表示,馬斯克剛發(fā)帖說今天到日本了。
雖然他并未透露此行目的,還是引得不少網(wǎng)友猜測(cè),難道馬斯克又要出手了??
參考鏈接:
[1]https://www.theinformation.com/?rc=riq8lb
[2]https://www.reuters.com/technology/ai-chatbot-characterai-with-no-revenue-raises-150-mln-led-by-andreessen-horowitz-2023-03-23/
[3]https://arxiv.org/abs/2109.02869
[4]https://www.ft.com/content/1f0cee71-2a44-4080-8c79-b037243ac6f5