新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

訂閱
糾錯(cuò)
加入自媒體

深度學(xué)習(xí)為什么還是無(wú)法處理邊緣場(chǎng)景?

雖然自動(dòng)駕駛車輛已經(jīng)完成了數(shù)百萬(wàn)公里的行駛測(cè)試,深度學(xué)習(xí)也已被普遍應(yīng)用,但依然會(huì)在一些看似簡(jiǎn)單的場(chǎng)景中犯下低級(jí)錯(cuò)誤。比如在遇到一些從未見(jiàn)到過(guò)的邊緣場(chǎng)景時(shí),系統(tǒng)可能會(huì)選擇視而不見(jiàn)甚至直接加速。

之所以出現(xiàn)這個(gè)問(wèn)題,是因?yàn)樯疃葘W(xué)習(xí)模型大多建立在統(tǒng)計(jì)學(xué)基礎(chǔ)之上,它們通過(guò)觀察數(shù)以千萬(wàn)計(jì)的圖像學(xué)習(xí)識(shí)別物體的特征。然而,真實(shí)世界的道路場(chǎng)景是無(wú)限多樣的,這種基于“見(jiàn)多識(shí)廣”的邏輯在面對(duì)罕見(jiàn)、極端或從未訓(xùn)練過(guò)的場(chǎng)景時(shí)會(huì)顯得捉襟見(jiàn)肘。

深度學(xué)習(xí)難處理邊緣場(chǎng)景的原因

深度學(xué)習(xí)之所以被廣泛應(yīng)用于自動(dòng)駕駛感知系統(tǒng)中,很大程度上得益于大規(guī)模標(biāo)注數(shù)據(jù)集的積累。模型通過(guò)大量的圖像學(xué)習(xí),可以知道什么是車、什么是行人。

然而,這種學(xué)習(xí)方式存在著一個(gè)問(wèn)題,它本質(zhì)上是在尋找某種統(tǒng)計(jì)上的規(guī)律,而不是真正理解物體的物理本質(zhì)。在學(xué)術(shù)上,這被稱為獨(dú)立同分布假設(shè),即模型默認(rèn)未來(lái)在路上遇到的情況一定和它在訓(xùn)練集里學(xué)過(guò)的情況是一致的。

可現(xiàn)實(shí)交通環(huán)境并非如此。當(dāng)路面上出現(xiàn)一個(gè)穿著奇裝異服的行人、一個(gè)形狀詭異的施工圍擋,或者由于事故而側(cè)翻、輪廓完全變形的貨車時(shí),模型會(huì)因?yàn)檫@些物體的特征與它“腦海中”的標(biāo)準(zhǔn)模板不匹配,而產(chǎn)生認(rèn)知偏差。

這種偏差會(huì)導(dǎo)致模型表現(xiàn)得過(guò)度自信。如當(dāng)自動(dòng)駕駛系統(tǒng)在白天、晴天的市區(qū)環(huán)境里訓(xùn)練了99%的時(shí)間,它就會(huì)形成一種先驗(yàn)的偏好。如果它在某個(gè)黃昏的隧道口遇到劇烈的光影交替,產(chǎn)生了一些怪異的陰影輪廓,模型可能會(huì)錯(cuò)誤地將其歸類為不具威脅的路面雜質(zhì),而理解不了那其實(shí)是一個(gè)正在橫穿馬路的障礙物。

這其實(shí)就是分布外(OOD)問(wèn)題,即測(cè)試環(huán)境的分布偏離了訓(xùn)練數(shù)據(jù)的分布,導(dǎo)致模型性能急劇下降。

此外,傳感器本身的物理局限也加劇了這種認(rèn)知的脆弱性。攝像頭作為被動(dòng)傳感器,極度依賴環(huán)境光,在強(qiáng)逆光或極暗環(huán)境下,圖像的對(duì)比度會(huì)喪失,噪聲會(huì)干擾特征提取,使算法無(wú)法準(zhǔn)確推算距離。

物理層面的對(duì)抗和干擾也是深度學(xué)習(xí)模型無(wú)法處理邊緣場(chǎng)景的原因。有研究發(fā)現(xiàn)如果利用特定的鏡面材料覆蓋交通錐,可以通過(guò)反射改變激光脈沖的方向,使激光雷達(dá)產(chǎn)生“物體消失”的錯(cuò)覺(jué),或者通過(guò)特定的角度反射產(chǎn)生“幻影”障礙物。

這意味著,僅通過(guò)增加訓(xùn)練數(shù)據(jù)是永遠(yuǎn)無(wú)法窮盡所有可能出現(xiàn)的物理干擾的。現(xiàn)有的視覺(jué)方案在處理長(zhǎng)尾場(chǎng)景時(shí)的泛化能力缺失,是高階自動(dòng)駕駛必須跨越的一道鴻溝。

如何解決這個(gè)問(wèn)題?

為了解決沒(méi)見(jiàn)過(guò)就不認(rèn)識(shí)的問(wèn)題,自動(dòng)駕駛技術(shù)正在從單純的目標(biāo)識(shí)別向空間占用演進(jìn)。

傳統(tǒng)的邏輯是給每個(gè)物體畫(huà)框并分類,但占用網(wǎng)絡(luò)(Occupancy Network)帶來(lái)了一種全新的解決方案,它不再糾結(jié)于那個(gè)物體是什么,而是判斷那個(gè)空間是否被占據(jù)。通過(guò)將三維空間劃分為無(wú)數(shù)細(xì)小的網(wǎng)格單元(體素),模型預(yù)測(cè)每個(gè)單元格是空閑還是被占用。

這種方式極大地增強(qiáng)了系統(tǒng)對(duì)異形物體的處理能力,無(wú)論是橫在地上的樹(shù)干、傾斜的吊車臂,還是散落的貨物,只要它占據(jù)了物理空間,系統(tǒng)就會(huì)將其標(biāo)記為不可行駛區(qū)域。

這種感知維度的升級(jí),離不開(kāi)Transformer架構(gòu)與鳥(niǎo)瞰圖(BEV)技術(shù)的融合。傳統(tǒng)的感知是逐個(gè)攝像頭、逐幀處理的,這容易導(dǎo)致視野割裂。

而現(xiàn)在的技術(shù)是將多個(gè)攝像頭的二維圖像通過(guò)Transformer架構(gòu)的注意力機(jī)制,實(shí)時(shí)轉(zhuǎn)換到一個(gè)統(tǒng)一的三維全景鳥(niǎo)瞰空間中。這種全局視野不僅能讓車輛更清晰地觀察道路和標(biāo)志的位置關(guān)系,還能通過(guò)時(shí)間維度上的信息積累,解決短時(shí)間的遮擋問(wèn)題。

如當(dāng)一個(gè)行人在視覺(jué)上被路邊車擋住的一瞬間,系統(tǒng)不會(huì)認(rèn)為人消失了,而是根據(jù)其之前的速度和物理規(guī)律,在占用圖中持續(xù)保留對(duì)其位置的估計(jì)。

與此同時(shí),大模型的引入為感知系統(tǒng)注入了更強(qiáng)的表示能力。擁有數(shù)十億甚至上百億參數(shù)的大模型,能夠捕捉到極其復(fù)雜的語(yǔ)義關(guān)系,學(xué)習(xí)到比傳統(tǒng)卷積網(wǎng)絡(luò)更深層的特征。

通過(guò)在大規(guī)模通用語(yǔ)料和圖像數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,這些模型已經(jīng)學(xué)會(huì)了廣泛的常識(shí),在遷移到自動(dòng)駕駛特定任務(wù)時(shí),可以顯著減少對(duì)人工標(biāo)注的需求,甚至展現(xiàn)出一定的零樣本學(xué)習(xí)能力,即在面對(duì)從未見(jiàn)過(guò)的場(chǎng)景時(shí),也能通過(guò)聯(lián)想和推理做出合理的判斷。

這種從局部特征提取到全局語(yǔ)義理解的演進(jìn),正在讓自動(dòng)駕駛系統(tǒng)從“尋找像素規(guī)律”轉(zhuǎn)向“建立世界觀”。

數(shù)據(jù)閉環(huán)與合成現(xiàn)實(shí)構(gòu)建自我進(jìn)化的知識(shí)體系

解決長(zhǎng)尾場(chǎng)景的另一個(gè)關(guān)鍵在于如何高效地獲取和利用高價(jià)值數(shù)據(jù)。

特斯拉提出的影子模式是這一領(lǐng)域的典型代表。每輛行駛在路上的量產(chǎn)車都像是一個(gè)潛在的教練。當(dāng)人類駕駛員的操作與自動(dòng)駕駛系統(tǒng)的模擬決策出現(xiàn)不一致時(shí),或者系統(tǒng)檢測(cè)到感知端的不確定性跳變,該場(chǎng)景的數(shù)據(jù)就會(huì)被觸發(fā)回傳。

這種機(jī)制讓系統(tǒng)能夠源源不斷地從真實(shí)世界的意外中學(xué)習(xí),利用海量的實(shí)車?yán)锍谭e累那些極度稀缺的事故案例和復(fù)雜路況。

然而,真實(shí)道路測(cè)試的成本和風(fēng)險(xiǎn)依然很高。為了填補(bǔ)數(shù)據(jù)的最后一塊拼圖,合成數(shù)據(jù)生成技術(shù)成為了必選項(xiàng)。

利用像英偉達(dá)DRIVE Replicator這樣的工具,開(kāi)發(fā)者可以在虛擬仿真環(huán)境中精確建模真實(shí)的物理現(xiàn)象。通過(guò)域隨機(jī)化技術(shù),可以在同一個(gè)數(shù)字孿生場(chǎng)景中自動(dòng)生成無(wú)數(shù)種光照、天氣和交通流的組合。

更重要的是,仿真環(huán)境可以安全地模擬那些在現(xiàn)實(shí)中如翻車事故、暴雨中的行人橫穿或者異形物體的跌落等極其危險(xiǎn)甚至無(wú)法捕捉的場(chǎng)景。

這種方式不僅提供了高質(zhì)量的訓(xùn)練樣本,還自帶完美的真值標(biāo)注,極大加速了算法的訓(xùn)練閉環(huán)。

為了讓這套系統(tǒng)更聰明,主動(dòng)學(xué)習(xí)技術(shù)被用來(lái)自動(dòng)化篩選這些海量數(shù)據(jù)。與其讓標(biāo)注員無(wú)休止地處理重復(fù)的晴天路況,系統(tǒng)會(huì)自動(dòng)識(shí)別那些位于決策邊界、模型信心不足的“困難樣本”交給專家標(biāo)注。

通過(guò)這種迭代循環(huán),模型可以用更少的數(shù)據(jù)實(shí)現(xiàn)更高的精度,讓自動(dòng)駕駛的“飛輪”越轉(zhuǎn)越快。

認(rèn)知覺(jué)醒與風(fēng)險(xiǎn)權(quán)衡讓機(jī)器學(xué)會(huì)知其不知

在技術(shù)不斷進(jìn)化的過(guò)程中,完美的感知可能永遠(yuǎn)無(wú)法實(shí)現(xiàn),因此讓系統(tǒng)學(xué)會(huì)承認(rèn)自己不知道并進(jìn)行風(fēng)險(xiǎn)權(quán)衡變得至關(guān)重要。

不確定性估計(jì)就是這樣一種機(jī)制,它要求模型在輸出每一個(gè)決策時(shí)都帶上一個(gè)置信度。

這種不確定性可能來(lái)源于數(shù)據(jù)噪聲(比如圖像模糊),也可能來(lái)源于認(rèn)知局限(比如遇到了從未見(jiàn)過(guò)的物體)。

當(dāng)系統(tǒng)檢測(cè)到不確定性上升時(shí),它會(huì)觸發(fā)更保守的駕駛行為,執(zhí)行如主動(dòng)減速、拉開(kāi)跟車距離,或者在極端情況下發(fā)出警告請(qǐng)求人工接管等操作。

更高階的演進(jìn)方向還有世界模型(World Models)。它不再是被動(dòng)地感知當(dāng)下,而是通過(guò)對(duì)環(huán)境的內(nèi)部表征來(lái)預(yù)測(cè)未來(lái)。世界模型將感知到的信息壓縮成一種內(nèi)部狀態(tài),并嘗試推演接下來(lái)可能發(fā)生的多種場(chǎng)景。

如果系統(tǒng)預(yù)測(cè)到前方三秒鐘內(nèi)行人有沖出的風(fēng)險(xiǎn),它就可以提前制定最優(yōu)的制動(dòng)方案。這種具備前瞻性的推演能力,讓自動(dòng)駕駛汽車從簡(jiǎn)單的“感知-反應(yīng)”模式,進(jìn)化到了“理解-推演-決策”的更高層次。

最后的話

自動(dòng)駕駛解決罕見(jiàn)場(chǎng)景的過(guò)程,其實(shí)就是一部從依賴數(shù)據(jù)紅利到追求認(rèn)知深度的進(jìn)化史。通過(guò)將占用網(wǎng)絡(luò)帶來(lái)的幾何直覺(jué)、Transformer架構(gòu)帶來(lái)的全局視野、數(shù)據(jù)閉環(huán)帶來(lái)的自我進(jìn)化能力,以及世界模型帶來(lái)的預(yù)測(cè)能力有機(jī)結(jié)合,自動(dòng)駕駛正在逐步普及。

雖然真實(shí)世界的復(fù)雜性依然是一項(xiàng)長(zhǎng)期挑戰(zhàn),但通過(guò)這些多維度的技術(shù)突破,我們正在把那些未知的風(fēng)險(xiǎn)轉(zhuǎn)化為可管理的風(fēng)險(xiǎn),讓機(jī)器不僅學(xué)會(huì)如何開(kāi)車,更學(xué)會(huì)如何理解這個(gè)復(fù)雜多變的物理世界。

-- END --

       原文標(biāo)題 : 深度學(xué)習(xí)為什么還是無(wú)法處理邊緣場(chǎng)景?

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)