深度學(xué)習(xí)為什么還是無(wú)法處理邊緣場(chǎng)景？

2026-04-27 14:19

雖然自動(dòng)駕駛車輛已經(jīng)完成了數(shù)百萬(wàn)公里的行駛測(cè)試，深度學(xué)習(xí)也已被普遍應(yīng)用，但依然會(huì)在一些看似簡(jiǎn)單的場(chǎng)景中犯下低級(jí)錯(cuò)誤。比如在遇到一些從未見(jiàn)到過(guò)的邊緣場(chǎng)景時(shí)，系統(tǒng)可能會(huì)選擇視而不見(jiàn)甚至直接加速。

之所以出現(xiàn)這個(gè)問(wèn)題，是因?yàn)樯疃葘W(xué)習(xí)模型大多建立在統(tǒng)計(jì)學(xué)基礎(chǔ)之上，它們通過(guò)觀察數(shù)以千萬(wàn)計(jì)的圖像學(xué)習(xí)識(shí)別物體的特征。然而，真實(shí)世界的道路場(chǎng)景是無(wú)限多樣的，這種基于“見(jiàn)多識(shí)廣”的邏輯在面對(duì)罕見(jiàn)、極端或從未訓(xùn)練過(guò)的場(chǎng)景時(shí)會(huì)顯得捉襟見(jiàn)肘。

深度學(xué)習(xí)難處理邊緣場(chǎng)景的原因

深度學(xué)習(xí)之所以被廣泛應(yīng)用于自動(dòng)駕駛感知系統(tǒng)中，很大程度上得益于大規(guī)模標(biāo)注數(shù)據(jù)集的積累。模型通過(guò)大量的圖像學(xué)習(xí)，可以知道什么是車、什么是行人。

然而，這種學(xué)習(xí)方式存在著一個(gè)問(wèn)題，它本質(zhì)上是在尋找某種統(tǒng)計(jì)上的規(guī)律，而不是真正理解物體的物理本質(zhì)。在學(xué)術(shù)上，這被稱為獨(dú)立同分布假設(shè)，即模型默認(rèn)未來(lái)在路上遇到的情況一定和它在訓(xùn)練集里學(xué)過(guò)的情況是一致的。

可現(xiàn)實(shí)交通環(huán)境并非如此。當(dāng)路面上出現(xiàn)一個(gè)穿著奇裝異服的行人、一個(gè)形狀詭異的施工圍擋，或者由于事故而側(cè)翻、輪廓完全變形的貨車時(shí)，模型會(huì)因?yàn)檫@些物體的特征與它“腦海中”的標(biāo)準(zhǔn)模板不匹配，而產(chǎn)生認(rèn)知偏差。

這種偏差會(huì)導(dǎo)致模型表現(xiàn)得過(guò)度自信。如當(dāng)自動(dòng)駕駛系統(tǒng)在白天、晴天的市區(qū)環(huán)境里訓(xùn)練了99%的時(shí)間，它就會(huì)形成一種先驗(yàn)的偏好。如果它在某個(gè)黃昏的隧道口遇到劇烈的光影交替，產(chǎn)生了一些怪異的陰影輪廓，模型可能會(huì)錯(cuò)誤地將其歸類為不具威脅的路面雜質(zhì)，而理解不了那其實(shí)是一個(gè)正在橫穿馬路的障礙物。

這其實(shí)就是分布外（OOD）問(wèn)題，即測(cè)試環(huán)境的分布偏離了訓(xùn)練數(shù)據(jù)的分布，導(dǎo)致模型性能急劇下降。

此外，傳感器本身的物理局限也加劇了這種認(rèn)知的脆弱性。攝像頭作為被動(dòng)傳感器，極度依賴環(huán)境光，在強(qiáng)逆光或極暗環(huán)境下，圖像的對(duì)比度會(huì)喪失，噪聲會(huì)干擾特征提取，使算法無(wú)法準(zhǔn)確推算距離。

物理層面的對(duì)抗和干擾也是深度學(xué)習(xí)模型無(wú)法處理邊緣場(chǎng)景的原因。有研究發(fā)現(xiàn)如果利用特定的鏡面材料覆蓋交通錐，可以通過(guò)反射改變激光脈沖的方向，使激光雷達(dá)產(chǎn)生“物體消失”的錯(cuò)覺(jué)，或者通過(guò)特定的角度反射產(chǎn)生“幻影”障礙物。

這意味著，僅通過(guò)增加訓(xùn)練數(shù)據(jù)是永遠(yuǎn)無(wú)法窮盡所有可能出現(xiàn)的物理干擾的。現(xiàn)有的視覺(jué)方案在處理長(zhǎng)尾場(chǎng)景時(shí)的泛化能力缺失，是高階自動(dòng)駕駛必須跨越的一道鴻溝。

如何解決這個(gè)問(wèn)題？

為了解決沒(méi)見(jiàn)過(guò)就不認(rèn)識(shí)的問(wèn)題，自動(dòng)駕駛技術(shù)正在從單純的目標(biāo)識(shí)別向空間占用演進(jìn)。

傳統(tǒng)的邏輯是給每個(gè)物體畫(huà)框并分類，但占用網(wǎng)絡(luò)（Occupancy Network）帶來(lái)了一種全新的解決方案，它不再糾結(jié)于那個(gè)物體是什么，而是判斷那個(gè)空間是否被占據(jù)。通過(guò)將三維空間劃分為無(wú)數(shù)細(xì)小的網(wǎng)格單元（體素），模型預(yù)測(cè)每個(gè)單元格是空閑還是被占用。

這種方式極大地增強(qiáng)了系統(tǒng)對(duì)異形物體的處理能力，無(wú)論是橫在地上的樹(shù)干、傾斜的吊車臂，還是散落的貨物，只要它占據(jù)了物理空間，系統(tǒng)就會(huì)將其標(biāo)記為不可行駛區(qū)域。

這種感知維度的升級(jí)，離不開(kāi)Transformer架構(gòu)與鳥(niǎo)瞰圖（BEV）技術(shù)的融合。傳統(tǒng)的感知是逐個(gè)攝像頭、逐幀處理的，這容易導(dǎo)致視野割裂。

而現(xiàn)在的技術(shù)是將多個(gè)攝像頭的二維圖像通過(guò)Transformer架構(gòu)的注意力機(jī)制，實(shí)時(shí)轉(zhuǎn)換到一個(gè)統(tǒng)一的三維全景鳥(niǎo)瞰空間中。這種全局視野不僅能讓車輛更清晰地觀察道路和標(biāo)志的位置關(guān)系，還能通過(guò)時(shí)間維度上的信息積累，解決短時(shí)間的遮擋問(wèn)題。

如當(dāng)一個(gè)行人在視覺(jué)上被路邊車擋住的一瞬間，系統(tǒng)不會(huì)認(rèn)為人消失了，而是根據(jù)其之前的速度和物理規(guī)律，在占用圖中持續(xù)保留對(duì)其位置的估計(jì)。

與此同時(shí)，大模型的引入為感知系統(tǒng)注入了更強(qiáng)的表示能力。擁有數(shù)十億甚至上百億參數(shù)的大模型，能夠捕捉到極其復(fù)雜的語(yǔ)義關(guān)系，學(xué)習(xí)到比傳統(tǒng)卷積網(wǎng)絡(luò)更深層的特征。

通過(guò)在大規(guī)模通用語(yǔ)料和圖像數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，這些模型已經(jīng)學(xué)會(huì)了廣泛的常識(shí)，在遷移到自動(dòng)駕駛特定任務(wù)時(shí)，可以顯著減少對(duì)人工標(biāo)注的需求，甚至展現(xiàn)出一定的零樣本學(xué)習(xí)能力，即在面對(duì)從未見(jiàn)過(guò)的場(chǎng)景時(shí)，也能通過(guò)聯(lián)想和推理做出合理的判斷。

這種從局部特征提取到全局語(yǔ)義理解的演進(jìn)，正在讓自動(dòng)駕駛系統(tǒng)從“尋找像素規(guī)律”轉(zhuǎn)向“建立世界觀”。

數(shù)據(jù)閉環(huán)與合成現(xiàn)實(shí)構(gòu)建自我進(jìn)化的知識(shí)體系

解決長(zhǎng)尾場(chǎng)景的另一個(gè)關(guān)鍵在于如何高效地獲取和利用高價(jià)值數(shù)據(jù)。

特斯拉提出的影子模式是這一領(lǐng)域的典型代表。每輛行駛在路上的量產(chǎn)車都像是一個(gè)潛在的教練。當(dāng)人類駕駛員的操作與自動(dòng)駕駛系統(tǒng)的模擬決策出現(xiàn)不一致時(shí)，或者系統(tǒng)檢測(cè)到感知端的不確定性跳變，該場(chǎng)景的數(shù)據(jù)就會(huì)被觸發(fā)回傳。

這種機(jī)制讓系統(tǒng)能夠源源不斷地從真實(shí)世界的意外中學(xué)習(xí)，利用海量的實(shí)車?yán)锍谭e累那些極度稀缺的事故案例和復(fù)雜路況。

然而，真實(shí)道路測(cè)試的成本和風(fēng)險(xiǎn)依然很高。為了填補(bǔ)數(shù)據(jù)的最后一塊拼圖，合成數(shù)據(jù)生成技術(shù)成為了必選項(xiàng)。

利用像英偉達(dá)DRIVE Replicator這樣的工具，開(kāi)發(fā)者可以在虛擬仿真環(huán)境中精確建模真實(shí)的物理現(xiàn)象。通過(guò)域隨機(jī)化技術(shù)，可以在同一個(gè)數(shù)字孿生場(chǎng)景中自動(dòng)生成無(wú)數(shù)種光照、天氣和交通流的組合。

更重要的是，仿真環(huán)境可以安全地模擬那些在現(xiàn)實(shí)中如翻車事故、暴雨中的行人橫穿或者異形物體的跌落等極其危險(xiǎn)甚至無(wú)法捕捉的場(chǎng)景。

這種方式不僅提供了高質(zhì)量的訓(xùn)練樣本，還自帶完美的真值標(biāo)注，極大加速了算法的訓(xùn)練閉環(huán)。

為了讓這套系統(tǒng)更聰明，主動(dòng)學(xué)習(xí)技術(shù)被用來(lái)自動(dòng)化篩選這些海量數(shù)據(jù)。與其讓標(biāo)注員無(wú)休止地處理重復(fù)的晴天路況，系統(tǒng)會(huì)自動(dòng)識(shí)別那些位于決策邊界、模型信心不足的“困難樣本”交給專家標(biāo)注。

通過(guò)這種迭代循環(huán)，模型可以用更少的數(shù)據(jù)實(shí)現(xiàn)更高的精度，讓自動(dòng)駕駛的“飛輪”越轉(zhuǎn)越快。

認(rèn)知覺(jué)醒與風(fēng)險(xiǎn)權(quán)衡讓機(jī)器學(xué)會(huì)知其不知

在技術(shù)不斷進(jìn)化的過(guò)程中，完美的感知可能永遠(yuǎn)無(wú)法實(shí)現(xiàn)，因此讓系統(tǒng)學(xué)會(huì)承認(rèn)自己不知道并進(jìn)行風(fēng)險(xiǎn)權(quán)衡變得至關(guān)重要。

不確定性估計(jì)就是這樣一種機(jī)制，它要求模型在輸出每一個(gè)決策時(shí)都帶上一個(gè)置信度。

這種不確定性可能來(lái)源于數(shù)據(jù)噪聲（比如圖像模糊），也可能來(lái)源于認(rèn)知局限（比如遇到了從未見(jiàn)過(guò)的物體）。

當(dāng)系統(tǒng)檢測(cè)到不確定性上升時(shí)，它會(huì)觸發(fā)更保守的駕駛行為，執(zhí)行如主動(dòng)減速、拉開(kāi)跟車距離，或者在極端情況下發(fā)出警告請(qǐng)求人工接管等操作。

更高階的演進(jìn)方向還有世界模型（World Models）。它不再是被動(dòng)地感知當(dāng)下，而是通過(guò)對(duì)環(huán)境的內(nèi)部表征來(lái)預(yù)測(cè)未來(lái)。世界模型將感知到的信息壓縮成一種內(nèi)部狀態(tài)，并嘗試推演接下來(lái)可能發(fā)生的多種場(chǎng)景。

如果系統(tǒng)預(yù)測(cè)到前方三秒鐘內(nèi)行人有沖出的風(fēng)險(xiǎn)，它就可以提前制定最優(yōu)的制動(dòng)方案。這種具備前瞻性的推演能力，讓自動(dòng)駕駛汽車從簡(jiǎn)單的“感知-反應(yīng)”模式，進(jìn)化到了“理解-推演-決策”的更高層次。

最后的話

自動(dòng)駕駛解決罕見(jiàn)場(chǎng)景的過(guò)程，其實(shí)就是一部從依賴數(shù)據(jù)紅利到追求認(rèn)知深度的進(jìn)化史。通過(guò)將占用網(wǎng)絡(luò)帶來(lái)的幾何直覺(jué)、Transformer架構(gòu)帶來(lái)的全局視野、數(shù)據(jù)閉環(huán)帶來(lái)的自我進(jìn)化能力，以及世界模型帶來(lái)的預(yù)測(cè)能力有機(jī)結(jié)合，自動(dòng)駕駛正在逐步普及。

雖然真實(shí)世界的復(fù)雜性依然是一項(xiàng)長(zhǎng)期挑戰(zhàn)，但通過(guò)這些多維度的技術(shù)突破，我們正在把那些未知的風(fēng)險(xiǎn)轉(zhuǎn)化為可管理的風(fēng)險(xiǎn)，讓機(jī)器不僅學(xué)會(huì)如何開(kāi)車，更學(xué)會(huì)如何理解這個(gè)復(fù)雜多變的物理世界。

-- END --

原文標(biāo)題 : 深度學(xué)習(xí)為什么還是無(wú)法處理邊緣場(chǎng)景？