CVPR最佳論文獎(jiǎng)首次給了自動(dòng)駕駛

作者：王磊楚門來源：超電實(shí)驗(yàn)室 78206/25

國(guó)內(nèi)的自動(dòng)駕駛，終于走在世界前列！來自上海人工智能實(shí)驗(yàn)室、武漢大學(xué)、商湯科技聯(lián)合發(fā)表的論文——《Planning-oriented Autonomous Driving》（以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛）獲得了2023全球計(jì)算機(jī)視覺盛會(huì)CVPR

標(biāo)簽： CVPR 大模型 自動(dòng)駕駛

國(guó)內(nèi)的自動(dòng)駕駛，終于走在世界前列！

來自上海人工智能實(shí)驗(yàn)室、武漢大學(xué)、商湯科技聯(lián)合發(fā)表的論文——《Planning-oriented Autonomous Driving》（以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛）獲得了2023全球計(jì)算機(jī)視覺盛會(huì)CVPR*論文獎(jiǎng)。

要知道，這是CVPR在40年的頒獎(jiǎng)歷史上，*篇以自動(dòng)駕駛為主題的*論文。

也是近十年來計(jì)算機(jī)視覺三大*會(huì)議中，*篇來自中國(guó)研究團(tuán)隊(duì)的*論文。

來源：OpenDriveLab

而CVPR是人工智能領(lǐng)域*學(xué)術(shù)影響力的*會(huì)議之一，在谷歌學(xué)術(shù)指標(biāo)2022年列出的全球最有影響力的6個(gè)科學(xué)期刊/會(huì)議中，CVPR位列第四，僅次于《自然》《新英格蘭醫(yī)學(xué)雜志》《科學(xué)》。

除了CVPR在學(xué)界和業(yè)界的影響力，其苛刻的評(píng)選標(biāo)準(zhǔn)更使得這次關(guān)于自動(dòng)駕駛論文的獲獎(jiǎng)尤為特別。

今年CVPR的投稿量共計(jì)9155篇，最終接收論文2359篇，接收率為25.8%，而最終入圍*論文候選名單的僅有12篇。

接下來咱們一起看看，這篇論文有什么開創(chuàng)性理論創(chuàng)新。

自動(dòng)駕駛通用大模型UniAD

這篇獲獎(jiǎng)?wù)撐拿麨?《Planning-oriented Autonomous Driving》（以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛），論文中提出了自動(dòng)駕駛通用算法大模型——Unified Autonomous Driving（UniAD）。

是的，這篇論文結(jié)合了今年爆火的大模型，論證了大模型與自動(dòng)駕駛產(chǎn)業(yè)結(jié)合的潛力。

這篇論文首次將檢測(cè)、跟蹤、建圖、軌跡預(yù)測(cè)、規(guī)劃等整合到一個(gè)基于Transformer的端到端網(wǎng)絡(luò)框架下，開創(chuàng)了以全局任務(wù)為目標(biāo)的自動(dòng)駕駛大模型架構(gòu)先河。

CVPR官方組委會(huì)給出的獲獎(jiǎng)理由是：該論文提出了一個(gè)端到端的感知決策一體化框架，融合了多任務(wù)聯(lián)合學(xué)習(xí)的新范式，使得進(jìn)行更有效的信息交換，協(xié)調(diào)感知預(yù)測(cè)決策，以進(jìn)一步提升路徑規(guī)劃能力。

來源：OpenDriveLab

下面我們就具體來看看，這篇論文是如何獲得了組委會(huì)的認(rèn)可。

現(xiàn)代自動(dòng)駕駛系統(tǒng)的特點(diǎn)，是按順序進(jìn)行模塊化任務(wù)，比如感知、預(yù)測(cè)和規(guī)劃，為了執(zhí)行各種各樣的任務(wù)并實(shí)現(xiàn)高級(jí)智能。

但汽車智能化發(fā)展已經(jīng)逐漸紅?；Ｗ詣?dòng)駕駛對(duì)計(jì)算能力和海量數(shù)據(jù)的處理能力要求更高，傳統(tǒng)的各個(gè)小模型堆疊的方案，顯然無法滿足城市自動(dòng)駕駛的需求，還有可能會(huì)出現(xiàn)多任務(wù)之間協(xié)調(diào)不足。

來源：上海人工智能實(shí)驗(yàn)室

所以這篇論文認(rèn)為，有必要設(shè)計(jì)和優(yōu)化一個(gè)綜合的框架，來重新審視感知和預(yù)測(cè)這類的關(guān)鍵組件，并對(duì)這些任務(wù)進(jìn)行優(yōu)先排序。

基于這樣的背景，上海人工智能實(shí)驗(yàn)室、武漢大學(xué)及商湯科技聯(lián)合提出了一個(gè)感知決策一體化的端到端自動(dòng)駕駛通用大模型UniAD。

來源：上海人工智能實(shí)驗(yàn)室

自動(dòng)駕駛通用算法框架—— Unified Autonomous Driving（UniAD）首次將檢測(cè)、跟蹤、建圖、軌跡預(yù)測(cè)，占據(jù)柵格預(yù)測(cè)以及規(guī)劃整合到一個(gè)基于 Transformer 的端到端網(wǎng)絡(luò)框架下，將全棧駕駛?cè)蝿?wù)整合到一個(gè)網(wǎng)絡(luò)中。

這次的獲獎(jiǎng)，無疑是印證了端到端的感知決策一體化算法被普遍認(rèn)為是自動(dòng)駕駛算法終局。

端到端比模塊化好在哪？

“端到端”其實(shí)原本是深度學(xué)習(xí)(Deep learning)中的概念，英文為“End-to-End（E2E）”，指的是一個(gè)AI模型，只要輸入原始數(shù)據(jù)就可以輸出最終結(jié)果的過程。

通過一個(gè)大的模型實(shí)現(xiàn)多種模塊化模型的功能，研發(fā)人員只需要針對(duì)這一個(gè)模型進(jìn)行整體訓(xùn)練、調(diào)整優(yōu)化，即可實(shí)現(xiàn)性能上的提升，因此可以更好地集中資源，實(shí)現(xiàn)功能聚焦。

而端到端自動(dòng)駕駛，就是通過模型直接通過輸入的圖像或者視頻信息得到汽車駕駛行為的指令。

來源：商湯科技

輸入傳感器信號(hào)后就可以直接輸出車控信號(hào)，大大降低了信息誤差的概率，也因此大大提升了系統(tǒng)性能的上限。

此前模塊化的設(shè)計(jì)雖然簡(jiǎn)化了跨團(tuán)隊(duì)的研發(fā)難度，但因?yàn)閮?yōu)化目標(biāo)是被隔離的，存在著跨模塊信息丟失、誤差積累和特征不對(duì)齊的風(fēng)險(xiǎn)。

而現(xiàn)在行業(yè)中大多數(shù)端到端的自動(dòng)駕駛系統(tǒng)，一直沒有一個(gè)很好的網(wǎng)絡(luò)框架來融合全部五大模塊，都只能融合部分模塊。

來源：論文

所以這篇論文開創(chuàng)性地將所有的模塊任務(wù)，都容納到一個(gè)算法架構(gòu)中，也是其得獎(jiǎng)的關(guān)鍵原因。

據(jù)獲獎(jiǎng)團(tuán)隊(duì)介紹，這個(gè)UniAD模型能每個(gè)模塊的優(yōu)點(diǎn)結(jié)合起來，并從全局角度為各個(gè)組件之間協(xié)同達(dá)到互補(bǔ)的狀態(tài)。

他們將一系列多攝像頭圖像輸入特征提取器，并通過 BEVFormer 轉(zhuǎn)換為統(tǒng)一的鳥瞰圖（BEV）。這部分可以快速替換為其他BEV模型，具有較好可拓展性。

根據(jù)論文，UniAD 的訓(xùn)練分兩個(gè)階段：

首先聯(lián)合訓(xùn)練感知部分，即目標(biāo)跟蹤和建圖模塊，然后使用所有感知、預(yù)測(cè)和規(guī)劃模塊端到端地訓(xùn)練模型20個(gè)階段。

具體來看，他們除了將感知、預(yù)測(cè)、規(guī)劃作為自動(dòng)駕駛的三個(gè)主要任務(wù)之外、還劃出了六小類子任務(wù)，其中包括了目標(biāo)檢測(cè)、目標(biāo)跟蹤、場(chǎng)景建圖、軌跡預(yù)測(cè)、柵格預(yù)測(cè)和路徑規(guī)劃。

然后將這些大大小小的任務(wù)整合到統(tǒng)一的端到端網(wǎng)絡(luò)框架下，由三大主任務(wù)環(huán)節(jié)中下達(dá)諸多子任務(wù)，再通過統(tǒng)一的接口進(jìn)行通信，方便彼此進(jìn)行規(guī)劃。

在感知環(huán)節(jié)，UniAD的目標(biāo)檢測(cè)與跟蹤模塊可以實(shí)現(xiàn)對(duì)動(dòng)態(tài)元素的特征提取、幀間物體跟蹤；在線建圖模塊實(shí)現(xiàn)了對(duì)靜態(tài)物體的特征提取、實(shí)例級(jí)地圖預(yù)測(cè)。

在預(yù)測(cè)環(huán)節(jié)，UniAD可以實(shí)現(xiàn)動(dòng)靜態(tài)元素交互與長(zhǎng)時(shí)序軌跡預(yù)測(cè)；占據(jù)柵格預(yù)測(cè)模塊實(shí)現(xiàn)了短時(shí)序全場(chǎng)景BEV、實(shí)例級(jí)預(yù)測(cè)。

在規(guī)劃任務(wù)中，UniAD實(shí)現(xiàn)基于自車query的軌跡預(yù)測(cè)和基于占據(jù)柵格的碰撞優(yōu)化。

來源：論文

總的來說，UniAD通過將環(huán)視的圖片以Transformer映射得到BEV的特征后，同時(shí)進(jìn)行目標(biāo)的跟蹤，在線的建圖，包括目標(biāo)軌跡的預(yù)測(cè)，還有障礙物的預(yù)測(cè)，現(xiàn)觀察現(xiàn)預(yù)測(cè)，然后決定怎么行動(dòng)，最終實(shí)現(xiàn)駕駛行為。

優(yōu)勢(shì)展示

他們?cè)趎uScenes真實(shí)場(chǎng)景上還實(shí)際測(cè)試了UniAD模型。所有任務(wù)均刷新了領(lǐng)域*性能SOTA（State-of-the-art），尤其是預(yù)測(cè)和規(guī)劃效果遠(yuǎn)超之前*方案，行駛的過程中同時(shí)生成高質(zhì)量的可解釋性感知和預(yù)測(cè)結(jié)果，并做出安全的操作。

其中，多目標(biāo)跟蹤準(zhǔn)確率超越SOTA 20%，車道線預(yù)測(cè)準(zhǔn)確率提升30%，預(yù)測(cè)運(yùn)動(dòng)位移和規(guī)劃的誤差則分別降低了38%和28%。

來源：商湯科技

具體來看，在晴天直行場(chǎng)景中，UniAD 可以感知左前方等待的黑色車輛，預(yù)測(cè)其未來軌跡（即將左轉(zhuǎn)駛?cè)胱攒嚨能嚨溃?，并立即減速以進(jìn)行避讓，待黑車駛離后再恢復(fù)正常速度直行。

來源：上海人工智能實(shí)驗(yàn)室

在場(chǎng)景復(fù)雜的十字路口，即便是因?yàn)橄掠?，干擾較大的情況下，UniAD 能通過分離模塊單獨(dú)生成十字路口的整體道路結(jié)構(gòu)，并完成左轉(zhuǎn)指令。

來源：上海人工智能實(shí)驗(yàn)室

在夜晚視野變暗的情況下，UniAD 也同樣感知到前車停車，且左右有障礙物的情況，并且完成了先靜止，后左轉(zhuǎn)的指令。

通過這些實(shí)例，證明了他們提出的這種理念在各個(gè)方面都要優(yōu)于以前的所謂*進(jìn)的技術(shù)。

作為自動(dòng)駕駛技術(shù)研究重要突破，UniAD 模型兼并了“多任務(wù)” 和“高效率”的特性，這次的獲獎(jiǎng)很大概率上也代表了當(dāng)下自動(dòng)駕駛未來的發(fā)展趨勢(shì)。

落地還需要時(shí)間

在自動(dòng)駕駛領(lǐng)域，端到端的大模型其實(shí)并不是什么新鮮概念。

早在2021年8月，特斯拉的 AI 高級(jí)總監(jiān)Andrej Karpathy，就在特斯拉 AI DAY 上展示了一項(xiàng)新技術(shù)——基于 Transformer 的 BEV (鳥瞰視角) 的感知方案。

這個(gè)方案，相當(dāng)于車輛正上方有一駕無人機(jī)在俯視車輛與周圍環(huán)境，這也是大模型技術(shù)首次應(yīng)用于自動(dòng)駕駛領(lǐng)域。

如今兩年的時(shí)間過去，大模型越來越受到廠商們的關(guān)注。

目前已經(jīng)有不少企業(yè)在端到端BEV+Transformer 模型上有所布局，除了商湯科技外，還有像特斯拉，英偉達(dá)以及毫末智行等一系列公司。

比如商湯科技和聯(lián)合實(shí)驗(yàn)室團(tuán)隊(duì)發(fā)布自動(dòng)駕駛通用UniAD大模型之前，就推出了“SenseAuto絕影”智能汽車平臺(tái)，搭建了智能座艙、智能駕駛、車路協(xié)同等業(yè)務(wù)板塊。

在智能駕駛方面，商湯提供有兩套不同的解決方案，分別是高速領(lǐng)航和城市領(lǐng)航。

其中，高速領(lǐng)航搭載5顆毫米波雷達(dá)、7顆攝像頭，采用16~48 TOPS算力平臺(tái)。城市領(lǐng)航方案則在此基礎(chǔ)上加了3個(gè)激光雷達(dá)，并采用大于200TOPS的高算力平臺(tái)。

商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛，將這些成果歸功于商湯持續(xù)建設(shè)打造“大模型+大裝置”技術(shù)路徑。

而論文中所提到的大模型技術(shù)，從落地到產(chǎn)業(yè)完全跟進(jìn)，仍需要很長(zhǎng)一段時(shí)間。

特別是UniAD大模型屬于囊括了所有規(guī)劃任務(wù)的超大型架構(gòu)，涉及感知、預(yù)測(cè)等非常復(fù)雜的系統(tǒng)，需要具備巨大的計(jì)算能力支撐，當(dāng)然也需要充足的時(shí)間去訓(xùn)練計(jì)算能力。

來源：論文

從硬件水平，到訓(xùn)練時(shí)間，再到系統(tǒng)性的技術(shù)優(yōu)化和工程落地，端到端自動(dòng)駕駛方案仍面臨很大挑戰(zhàn)。

這次獲得CVPR*論文獎(jiǎng)，并不只是一次單純的書面意義上的獲獎(jiǎng)，更像是人工智能大模型在自動(dòng)駕駛上的一次融合前瞻，多模態(tài)大模型助力的也不僅是單個(gè)車輛的自動(dòng)駕駛技術(shù)，而是推動(dòng)高階自動(dòng)駕駛整體落地。

所以，不管怎樣，這對(duì)于自動(dòng)駕駛行業(yè)來說是一個(gè)振奮的消息，期待全棧端到端自動(dòng)駕駛方案的大規(guī)模應(yīng)用！

參考鏈接

1.https://mp.weixin.qq.com/s/EWMRzDExsJZ4_SYBSBaMFg

2.https://mp.weixin.qq.com/s/8svV4yxRi6TikcRivgHr_A

3.https://zhuanlan.zhihu.com/p/638780421

4.https://arxiv.org/pdf/2212.10156.pdf

5.https://arxiv.org/abs/2212.10156

6.https://github.com/OpenDriveLab/UniAD

免責(zé)聲明：本網(wǎng)轉(zhuǎn)載合作媒體、機(jī)構(gòu)或其他網(wǎng)站的公開信息，并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性，信息僅供參考，不作為交易和服務(wù)的根據(jù)。轉(zhuǎn)載文章版權(quán)歸原作者所有，如有侵權(quán)或其它問題請(qǐng)及時(shí)告之，本網(wǎng)將及時(shí)修改或刪除。凡以任何方式登錄本網(wǎng)站或直接、間接使用本網(wǎng)站資料者，視為自愿接受本網(wǎng)站聲明的約束。聯(lián)系電話 010-57193596，謝謝。

肥臀巨乳熟女网站|免费亚洲丁香|性爱超碰在线播放|丁香五月欧美成人|精产国品免费jiure99|熟女伦网导航|草草视频在线直播免费观看|外网毛片9999|约干AV一区二区|亚洲激情黄色视屏

首頁

資訊

財(cái)中號(hào)

品牌

專題

投資學(xué)院

發(fā)布文章

APP下載

熱點(diǎn)

國(guó)資

產(chǎn)業(yè)

券商

基金

金融

上市公司

財(cái)富

專題

CVPR最佳論文獎(jiǎng)首次給了自動(dòng)駕駛

2023年中國(guó)經(jīng)濟(jì)面臨巨大挑戰(zhàn)，只有知道如何破局，才能縱橫股市

首頁

資訊

財(cái)中號(hào)

品牌

專題

投資學(xué)院

發(fā)布文章

APP下載

CVPR最佳論文獎(jiǎng)首次給了自動(dòng)駕駛

您可能感興趣的文章