深度學(xué)習(xí)為什么還是無(wú)法處理邊緣場(chǎng)景?
雖然自動(dòng)駕駛車輛已經(jīng)完成了數(shù)百萬(wàn)公里的行駛測(cè)試,深度學(xué)習(xí)也已被普遍應(yīng)用,但依然會(huì)在一些看似簡(jiǎn)單的場(chǎng)景中犯下低級(jí)錯(cuò)誤。比如在遇到一些從未見(jiàn)到過(guò)的邊緣場(chǎng)景時(shí),系統(tǒng)可能會(huì)選擇視而不見(jiàn)甚至直接加速。
之所以出現(xiàn)這個(gè)問(wèn)題,是因?yàn)樯疃葘W(xué)習(xí)模型大多建立在統(tǒng)計(jì)學(xué)基礎(chǔ)之上,它們通過(guò)觀察數(shù)以千萬(wàn)計(jì)的圖像學(xué)習(xí)識(shí)別物體的特征。然而,真實(shí)世界的道路場(chǎng)景是無(wú)限多樣的,這種基于“見(jiàn)多識(shí)廣”的邏輯在面對(duì)罕見(jiàn)、極端或從未訓(xùn)練過(guò)的場(chǎng)景時(shí)會(huì)顯得捉襟見(jiàn)肘。
深度學(xué)習(xí)難處理邊緣場(chǎng)景的原因
深度學(xué)習(xí)之所以被廣泛應(yīng)用于自動(dòng)駕駛感知系統(tǒng)中,很大程度上得益于大規(guī)模標(biāo)注數(shù)據(jù)集的積累。模型通過(guò)大量的圖像學(xué)習(xí),可以知道什么是車、什么是行人。
然而,這種學(xué)習(xí)方式存在著一個(gè)問(wèn)題,它本質(zhì)上是在尋找某種統(tǒng)計(jì)上的規(guī)律,而不是真正理解物體的物理本質(zhì)。在學(xué)術(shù)上,這被稱為獨(dú)立同分布假設(shè),即模型默認(rèn)未來(lái)在路上遇到的情況一定和它在訓(xùn)練集里學(xué)過(guò)的情況是一致的。
可現(xiàn)實(shí)交通環(huán)境并非如此。當(dāng)路面上出現(xiàn)一個(gè)穿著奇裝異服的行人、一個(gè)形狀詭異的施工圍擋,或者由于事故而側(cè)翻、輪廓完全變形的貨車時(shí),模型會(huì)因?yàn)檫@些物體的特征與它“腦海中”的標(biāo)準(zhǔn)模板不匹配,而產(chǎn)生認(rèn)知偏差。
這種偏差會(huì)導(dǎo)致模型表現(xiàn)得過(guò)度自信。如當(dāng)自動(dòng)駕駛系統(tǒng)在白天、晴天的市區(qū)環(huán)境里訓(xùn)練了99%的時(shí)間,它就會(huì)形成一種先驗(yàn)的偏好。如果它在某個(gè)黃昏的隧道口遇到劇烈的光影交替,產(chǎn)生了一些怪異的陰影輪廓,模型可能會(huì)錯(cuò)誤地將其歸類為不具威脅的路面雜質(zhì),而理解不了那其實(shí)是一個(gè)正在橫穿馬路的障礙物。
這其實(shí)就是分布外(OOD)問(wèn)題,即測(cè)試環(huán)境的分布偏離了訓(xùn)練數(shù)據(jù)的分布,導(dǎo)致模型性能急劇下降。
此外,傳感器本身的物理局限也加劇了這種認(rèn)知的脆弱性。攝像頭作為被動(dòng)傳感器,極度依賴環(huán)境光,在強(qiáng)逆光或極暗環(huán)境下,圖像的對(duì)比度會(huì)喪失,噪聲會(huì)干擾特征提取,使算法無(wú)法準(zhǔn)確推算距離。
物理層面的對(duì)抗和干擾也是深度學(xué)習(xí)模型無(wú)法處理邊緣場(chǎng)景的原因。有研究發(fā)現(xiàn)如果利用特定的鏡面材料覆蓋交通錐,可以通過(guò)反射改變激光脈沖的方向,使激光雷達(dá)產(chǎn)生“物體消失”的錯(cuò)覺(jué),或者通過(guò)特定的角度反射產(chǎn)生“幻影”障礙物。
這意味著,僅通過(guò)增加訓(xùn)練數(shù)據(jù)是永遠(yuǎn)無(wú)法窮盡所有可能出現(xiàn)的物理干擾的。現(xiàn)有的視覺(jué)方案在處理長(zhǎng)尾場(chǎng)景時(shí)的泛化能力缺失,是高階自動(dòng)駕駛必須跨越的一道鴻溝。
如何解決這個(gè)問(wèn)題?
為了解決沒(méi)見(jiàn)過(guò)就不認(rèn)識(shí)的問(wèn)題,自動(dòng)駕駛技術(shù)正在從單純的目標(biāo)識(shí)別向空間占用演進(jìn)。
傳統(tǒng)的邏輯是給每個(gè)物體畫(huà)框并分類,但占用網(wǎng)絡(luò)(Occupancy Network)帶來(lái)了一種全新的解決方案,它不再糾結(jié)于那個(gè)物體是什么,而是判斷那個(gè)空間是否被占據(jù)。通過(guò)將三維空間劃分為無(wú)數(shù)細(xì)小的網(wǎng)格單元(體素),模型預(yù)測(cè)每個(gè)單元格是空閑還是被占用。
這種方式極大地增強(qiáng)了系統(tǒng)對(duì)異形物體的處理能力,無(wú)論是橫在地上的樹(shù)干、傾斜的吊車臂,還是散落的貨物,只要它占據(jù)了物理空間,系統(tǒng)就會(huì)將其標(biāo)記為不可行駛區(qū)域。
這種感知維度的升級(jí),離不開(kāi)Transformer架構(gòu)與鳥(niǎo)瞰圖(BEV)技術(shù)的融合。傳統(tǒng)的感知是逐個(gè)攝像頭、逐幀處理的,這容易導(dǎo)致視野割裂。
而現(xiàn)在的技術(shù)是將多個(gè)攝像頭的二維圖像通過(guò)Transformer架構(gòu)的注意力機(jī)制,實(shí)時(shí)轉(zhuǎn)換到一個(gè)統(tǒng)一的三維全景鳥(niǎo)瞰空間中。這種全局視野不僅能讓車輛更清晰地觀察道路和標(biāo)志的位置關(guān)系,還能通過(guò)時(shí)間維度上的信息積累,解決短時(shí)間的遮擋問(wèn)題。
如當(dāng)一個(gè)行人在視覺(jué)上被路邊車擋住的一瞬間,系統(tǒng)不會(huì)認(rèn)為人消失了,而是根據(jù)其之前的速度和物理規(guī)律,在占用圖中持續(xù)保留對(duì)其位置的估計(jì)。
與此同時(shí),大模型的引入為感知系統(tǒng)注入了更強(qiáng)的表示能力。擁有數(shù)十億甚至上百億參數(shù)的大模型,能夠捕捉到極其復(fù)雜的語(yǔ)義關(guān)系,學(xué)習(xí)到比傳統(tǒng)卷積網(wǎng)絡(luò)更深層的特征。
通過(guò)在大規(guī)模通用語(yǔ)料和圖像數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,這些模型已經(jīng)學(xué)會(huì)了廣泛的常識(shí),在遷移到自動(dòng)駕駛特定任務(wù)時(shí),可以顯著減少對(duì)人工標(biāo)注的需求,甚至展現(xiàn)出一定的零樣本學(xué)習(xí)能力,即在面對(duì)從未見(jiàn)過(guò)的場(chǎng)景時(shí),也能通過(guò)聯(lián)想和推理做出合理的判斷。
這種從局部特征提取到全局語(yǔ)義理解的演進(jìn),正在讓自動(dòng)駕駛系統(tǒng)從“尋找像素規(guī)律”轉(zhuǎn)向“建立世界觀”。
數(shù)據(jù)閉環(huán)與合成現(xiàn)實(shí)構(gòu)建自我進(jìn)化的知識(shí)體系
解決長(zhǎng)尾場(chǎng)景的另一個(gè)關(guān)鍵在于如何高效地獲取和利用高價(jià)值數(shù)據(jù)。
特斯拉提出的影子模式是這一領(lǐng)域的典型代表。每輛行駛在路上的量產(chǎn)車都像是一個(gè)潛在的教練。當(dāng)人類駕駛員的操作與自動(dòng)駕駛系統(tǒng)的模擬決策出現(xiàn)不一致時(shí),或者系統(tǒng)檢測(cè)到感知端的不確定性跳變,該場(chǎng)景的數(shù)據(jù)就會(huì)被觸發(fā)回傳。
這種機(jī)制讓系統(tǒng)能夠源源不斷地從真實(shí)世界的意外中學(xué)習(xí),利用海量的實(shí)車?yán)锍谭e累那些極度稀缺的事故案例和復(fù)雜路況。
然而,真實(shí)道路測(cè)試的成本和風(fēng)險(xiǎn)依然很高。為了填補(bǔ)數(shù)據(jù)的最后一塊拼圖,合成數(shù)據(jù)生成技術(shù)成為了必選項(xiàng)。
利用像英偉達(dá)DRIVE Replicator這樣的工具,開(kāi)發(fā)者可以在虛擬仿真環(huán)境中精確建模真實(shí)的物理現(xiàn)象。通過(guò)域隨機(jī)化技術(shù),可以在同一個(gè)數(shù)字孿生場(chǎng)景中自動(dòng)生成無(wú)數(shù)種光照、天氣和交通流的組合。
更重要的是,仿真環(huán)境可以安全地模擬那些在現(xiàn)實(shí)中如翻車事故、暴雨中的行人橫穿或者異形物體的跌落等極其危險(xiǎn)甚至無(wú)法捕捉的場(chǎng)景。
這種方式不僅提供了高質(zhì)量的訓(xùn)練樣本,還自帶完美的真值標(biāo)注,極大加速了算法的訓(xùn)練閉環(huán)。
為了讓這套系統(tǒng)更聰明,主動(dòng)學(xué)習(xí)技術(shù)被用來(lái)自動(dòng)化篩選這些海量數(shù)據(jù)。與其讓標(biāo)注員無(wú)休止地處理重復(fù)的晴天路況,系統(tǒng)會(huì)自動(dòng)識(shí)別那些位于決策邊界、模型信心不足的“困難樣本”交給專家標(biāo)注。
通過(guò)這種迭代循環(huán),模型可以用更少的數(shù)據(jù)實(shí)現(xiàn)更高的精度,讓自動(dòng)駕駛的“飛輪”越轉(zhuǎn)越快。
認(rèn)知覺(jué)醒與風(fēng)險(xiǎn)權(quán)衡讓機(jī)器學(xué)會(huì)知其不知
在技術(shù)不斷進(jìn)化的過(guò)程中,完美的感知可能永遠(yuǎn)無(wú)法實(shí)現(xiàn),因此讓系統(tǒng)學(xué)會(huì)承認(rèn)自己不知道并進(jìn)行風(fēng)險(xiǎn)權(quán)衡變得至關(guān)重要。
不確定性估計(jì)就是這樣一種機(jī)制,它要求模型在輸出每一個(gè)決策時(shí)都帶上一個(gè)置信度。
這種不確定性可能來(lái)源于數(shù)據(jù)噪聲(比如圖像模糊),也可能來(lái)源于認(rèn)知局限(比如遇到了從未見(jiàn)過(guò)的物體)。
當(dāng)系統(tǒng)檢測(cè)到不確定性上升時(shí),它會(huì)觸發(fā)更保守的駕駛行為,執(zhí)行如主動(dòng)減速、拉開(kāi)跟車距離,或者在極端情況下發(fā)出警告請(qǐng)求人工接管等操作。
更高階的演進(jìn)方向還有世界模型(World Models)。它不再是被動(dòng)地感知當(dāng)下,而是通過(guò)對(duì)環(huán)境的內(nèi)部表征來(lái)預(yù)測(cè)未來(lái)。世界模型將感知到的信息壓縮成一種內(nèi)部狀態(tài),并嘗試推演接下來(lái)可能發(fā)生的多種場(chǎng)景。
如果系統(tǒng)預(yù)測(cè)到前方三秒鐘內(nèi)行人有沖出的風(fēng)險(xiǎn),它就可以提前制定最優(yōu)的制動(dòng)方案。這種具備前瞻性的推演能力,讓自動(dòng)駕駛汽車從簡(jiǎn)單的“感知-反應(yīng)”模式,進(jìn)化到了“理解-推演-決策”的更高層次。
最后的話
自動(dòng)駕駛解決罕見(jiàn)場(chǎng)景的過(guò)程,其實(shí)就是一部從依賴數(shù)據(jù)紅利到追求認(rèn)知深度的進(jìn)化史。通過(guò)將占用網(wǎng)絡(luò)帶來(lái)的幾何直覺(jué)、Transformer架構(gòu)帶來(lái)的全局視野、數(shù)據(jù)閉環(huán)帶來(lái)的自我進(jìn)化能力,以及世界模型帶來(lái)的預(yù)測(cè)能力有機(jī)結(jié)合,自動(dòng)駕駛正在逐步普及。
雖然真實(shí)世界的復(fù)雜性依然是一項(xiàng)長(zhǎng)期挑戰(zhàn),但通過(guò)這些多維度的技術(shù)突破,我們正在把那些未知的風(fēng)險(xiǎn)轉(zhuǎn)化為可管理的風(fēng)險(xiǎn),讓機(jī)器不僅學(xué)會(huì)如何開(kāi)車,更學(xué)會(huì)如何理解這個(gè)復(fù)雜多變的物理世界。
-- END --
原文標(biāo)題 : 深度學(xué)習(xí)為什么還是無(wú)法處理邊緣場(chǎng)景?
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來(lái)了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-

長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
6月30日立即申請(qǐng)?jiān)囉?> 【免費(fèi)試用】旭之源工業(yè)電源一一機(jī)器人的穩(wěn)定“心臟“
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來(lái)·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
推薦專題
-
2 華為,重大突破!
- 1 人形機(jī)器人“第一股”來(lái)了!宇樹(shù)科技即將上會(huì)
- 2 全球股市陷AI獨(dú)大結(jié)構(gòu)性瘋狂
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 DeepSeek融資500億,梁文鋒難逃資本局
- 5 谷歌2026 I/O大會(huì)完整回顧:模型依然重要,但智能體正在接管一切
- 6 全球資本,重倉(cāng)中國(guó)機(jī)器人
- 7 Figure AI 交付突破350臺(tái),陪跑特斯拉會(huì)迎來(lái)iPhone 時(shí)刻嗎?
- 8 Anthropic發(fā)布2028年全球AI領(lǐng)導(dǎo)力的兩種情景報(bào)告
- 9 “國(guó)產(chǎn)GPU第一股”摩爾線程首季扭虧,但造血能力仍待考驗(yàn)
- 10 特斯拉宣布監(jiān)督版FSD登陸中國(guó)?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





