國內(nèi)的自動駕駛,終于走在世界前列!
來自上海人工智能實驗室、武漢大學、商湯科技聯(lián)合發(fā)表的論文——《Planning-oriented Autonomous Driving》(以路徑規(guī)劃為導向的自動駕駛)獲得了2023全球計算機視覺盛會CVPR*論文獎。
要知道,這是CVPR在40年的頒獎歷史上,*篇以自動駕駛為主題的*論文。
也是近十年來計算機視覺三大*會議中,*篇來自中國研究團隊的*論文。
來源:OpenDriveLab
而CVPR是人工智能領域*學術影響力的*會議之一,在谷歌學術指標2022年列出的全球最有影響力的6個科學期刊/會議中,CVPR位列第四,僅次于《自然》《新英格蘭醫(yī)學雜志》《科學》。
除了CVPR在學界和業(yè)界的影響力,其苛刻的評選標準更使得這次關于自動駕駛論文的獲獎尤為特別。
今年CVPR的投稿量共計9155篇,最終接收論文2359篇,接收率為25.8%,而最終入圍*論文候選名單的僅有12篇。
接下來咱們一起看看,這篇論文有什么開創(chuàng)性理論創(chuàng)新。
01
自動駕駛通用大模型UniAD
這篇獲獎論文名為 《Planning-oriented Autonomous Driving》(以路徑規(guī)劃為導向的自動駕駛),論文中提出了自動駕駛通用算法大模型——Unified Autonomous Driving(UniAD)。
是的,這篇論文結合了今年爆火的大模型,論證了大模型與自動駕駛產(chǎn)業(yè)結合的潛力。
這篇論文首次將檢測、跟蹤、建圖、軌跡預測、規(guī)劃等整合到一個基于Transformer的端到端網(wǎng)絡框架下,開創(chuàng)了以全局任務為目標的自動駕駛大模型架構先河。
CVPR官方組委會給出的獲獎理由是:該論文提出了一個端到端的感知決策一體化框架,融合了多任務聯(lián)合學習的新范式,使得進行更有效的信息交換,協(xié)調(diào)感知預測決策,以進一步提升路徑規(guī)劃能力。
來源:OpenDriveLab
下面我們就具體來看看,這篇論文是如何獲得了組委會的認可。
現(xiàn)代自動駕駛系統(tǒng)的特點,是按順序進行模塊化任務,比如感知、預測和規(guī)劃,為了執(zhí)行各種各樣的任務并實現(xiàn)高級智能。
但汽車智能化發(fā)展已經(jīng)逐漸紅?;?。自動駕駛對計算能力和海量數(shù)據(jù)的處理能力要求更高,傳統(tǒng)的各個小模型堆疊的方案,顯然無法滿足城市自動駕駛的需求,還有可能會出現(xiàn)多任務之間協(xié)調(diào)不足。
來源:上海人工智能實驗室
所以這篇論文認為,有必要設計和優(yōu)化一個綜合的框架,來重新審視感知和預測這類的關鍵組件,并對這些任務進行優(yōu)先排序。
基于這樣的背景,上海人工智能實驗室、武漢大學及商湯科技聯(lián)合提出了一個感知決策一體化的端到端自動駕駛通用大模型UniAD。
來源:上海人工智能實驗室
自動駕駛通用算法框架—— Unified Autonomous Driving(UniAD)首次將檢測、跟蹤、建圖、軌跡預測,占據(jù)柵格預測以及規(guī)劃整合到一個基于 Transformer 的端到端網(wǎng)絡框架下,將全棧駕駛任務整合到一個網(wǎng)絡中。
這次的獲獎,無疑是印證了端到端的感知決策一體化算法被普遍認為是自動駕駛算法終局。
端到端比模塊化好在哪?
“端到端”其實原本是深度學習(Deep learning)中的概念,英文為“End-to-End(E2E)”,指的是一個AI模型,只要輸入原始數(shù)據(jù)就可以輸出最終結果的過程。
通過一個大的模型實現(xiàn)多種模塊化模型的功能,研發(fā)人員只需要針對這一個模型進行整體訓練、調(diào)整優(yōu)化,即可實現(xiàn)性能上的提升,因此可以更好地集中資源,實現(xiàn)功能聚焦。
而端到端自動駕駛,就是通過模型直接通過輸入的圖像或者視頻信息得到汽車駕駛行為的指令。
來源:商湯科技
輸入傳感器信號后就可以直接輸出車控信號,大大降低了信息誤差的概率,也因此大大提升了系統(tǒng)性能的上限。
此前模塊化的設計雖然簡化了跨團隊的研發(fā)難度,但因為優(yōu)化目標是被隔離的,存在著跨模塊信息丟失、誤差積累和特征不對齊的風險。
而現(xiàn)在行業(yè)中大多數(shù)端到端的自動駕駛系統(tǒng),一直沒有一個很好的網(wǎng)絡框架來融合全部五大模塊,都只能融合部分模塊。
來源:論文
所以這篇論文開創(chuàng)性地將所有的模塊任務,都容納到一個算法架構中,也是其得獎的關鍵原因。
據(jù)獲獎團隊介紹,這個UniAD模型能每個模塊的優(yōu)點結合起來,并從全局角度為各個組件之間協(xié)同達到互補的狀態(tài)。
他們將一系列多攝像頭圖像輸入特征提取器,并通過 BEVFormer 轉換為統(tǒng)一的鳥瞰圖(BEV)。這部分可以快速替換為其他BEV模型,具有較好可拓展性。
根據(jù)論文,UniAD 的訓練分兩個階段:
首先聯(lián)合訓練感知部分,即目標跟蹤和建圖模塊,然后使用所有感知、預測和規(guī)劃模塊端到端地訓練模型20個階段。
具體來看,他們除了將感知、預測、規(guī)劃作為自動駕駛的三個主要任務之外、還劃出了六小類子任務,其中包括了目標檢測、目標跟蹤、場景建圖、軌跡預測、柵格預測和路徑規(guī)劃。
然后將這些大大小小的任務整合到統(tǒng)一的端到端網(wǎng)絡框架下,由三大主任務環(huán)節(jié)中下達諸多子任務,再通過統(tǒng)一的接口進行通信,方便彼此進行規(guī)劃。
在感知環(huán)節(jié),UniAD的目標檢測與跟蹤模塊可以實現(xiàn)對動態(tài)元素的特征提取、幀間物體跟蹤;在線建圖模塊實現(xiàn)了對靜態(tài)物體的特征提取、實例級地圖預測。
在預測環(huán)節(jié),UniAD可以實現(xiàn)動靜態(tài)元素交互與長時序軌跡預測;占據(jù)柵格預測模塊實現(xiàn)了短時序全場景BEV、實例級預測。
在規(guī)劃任務中,UniAD實現(xiàn)基于自車query的軌跡預測和基于占據(jù)柵格的碰撞優(yōu)化。
來源:論文
總的來說,UniAD通過將環(huán)視的圖片以Transformer映射得到BEV的特征后,同時進行目標的跟蹤,在線的建圖,包括目標軌跡的預測,還有障礙物的預測,現(xiàn)觀察現(xiàn)預測,然后決定怎么行動,最終實現(xiàn)駕駛行為。
優(yōu)勢展示
他們在nuScenes真實場景上還實際測試了UniAD模型。所有任務均刷新了領域*性能SOTA(State-of-the-art),尤其是預測和規(guī)劃效果遠超之前*方案,行駛的過程中同時生成高質(zhì)量的可解釋性感知和預測結果,并做出安全的操作。
其中,多目標跟蹤準確率超越SOTA 20%,車道線預測準確率提升30%,預測運動位移和規(guī)劃的誤差則分別降低了38%和28%。
來源:商湯科技
具體來看,在晴天直行場景中,UniAD 可以感知左前方等待的黑色車輛,預測其未來軌跡(即將左轉駛入自車的車道),并立即減速以進行避讓,待黑車駛離后再恢復正常速度直行。
來源:上海人工智能實驗室
在場景復雜的十字路口,即便是因為下雨,干擾較大的情況下,UniAD 能通過分離模塊單獨生成十字路口的整體道路結構,并完成左轉指令。
來源:上海人工智能實驗室
在夜晚視野變暗的情況下,UniAD 也同樣感知到前車停車,且左右有障礙物的情況,并且完成了先靜止,后左轉的指令。
通過這些實例,證明了他們提出的這種理念在各個方面都要優(yōu)于以前的所謂*進的技術。
作為自動駕駛技術研究重要突破,UniAD 模型兼并了“多任務” 和“高效率”的特性,這次的獲獎很大概率上也代表了當下自動駕駛未來的發(fā)展趨勢。
02
落地還需要時間
在自動駕駛領域,端到端的大模型其實并不是什么新鮮概念。
早在2021年8月,特斯拉的 AI 高級總監(jiān)Andrej Karpathy,就在特斯拉 AI DAY 上展示了一項新技術——基于 Transformer 的 BEV (鳥瞰視角) 的感知方案。
這個方案,相當于車輛正上方有一駕無人機在俯視車輛與周圍環(huán)境,這也是大模型技術首次應用于自動駕駛領域。
如今兩年的時間過去,大模型越來越受到廠商們的關注。
目前已經(jīng)有不少企業(yè)在端到端BEV+Transformer 模型上有所布局,除了商湯科技外,還有像特斯拉,英偉達以及毫末智行等一系列公司。
比如商湯科技和聯(lián)合實驗室團隊發(fā)布自動駕駛通用UniAD大模型之前,就推出了“SenseAuto絕影”智能汽車平臺,搭建了智能座艙、智能駕駛、車路協(xié)同等業(yè)務板塊。
在智能駕駛方面,商湯提供有兩套不同的解決方案,分別是高速領航和城市領航。
其中,高速領航搭載5顆毫米波雷達、7顆攝像頭,采用16~48 TOPS算力平臺。城市領航方案則在此基礎上加了3個激光雷達,并采用大于200TOPS的高算力平臺。
商湯科技聯(lián)合創(chuàng)始人、首席科學家、絕影智能汽車事業(yè)群總裁王曉剛,將這些成果歸功于商湯持續(xù)建設打造“大模型+大裝置”技術路徑。
而論文中所提到的大模型技術,從落地到產(chǎn)業(yè)完全跟進,仍需要很長一段時間。
特別是UniAD大模型屬于囊括了所有規(guī)劃任務的超大型架構,涉及感知、預測等非常復雜的系統(tǒng),需要具備巨大的計算能力支撐,當然也需要充足的時間去訓練計算能力。
來源:論文
從硬件水平,到訓練時間,再到系統(tǒng)性的技術優(yōu)化和工程落地,端到端自動駕駛方案仍面臨很大挑戰(zhàn)。
這次獲得CVPR*論文獎,并不只是一次單純的書面意義上的獲獎,更像是人工智能大模型在自動駕駛上的一次融合前瞻,多模態(tài)大模型助力的也不僅是單個車輛的自動駕駛技術,而是推動高階自動駕駛整體落地。
所以,不管怎樣,這對于自動駕駛行業(yè)來說是一個振奮的消息,期待全棧端到端自動駕駛方案的大規(guī)模應用!
參考鏈接
1.https://mp.weixin.qq.com/s/EWMRzDExsJZ4_SYBSBaMFg
2.https://mp.weixin.qq.com/s/8svV4yxRi6TikcRivgHr_A
3.https://zhuanlan.zhihu.com/p/638780421
4.https://arxiv.org/pdf/2212.10156.pdf
5.https://arxiv.org/abs/2212.10156
6.https://github.com/OpenDriveLab/UniAD