自動(dòng)駕駛中常提的“強(qiáng)化學(xué)習(xí)”是個(gè)啥?
在談及自動(dòng)駕駛時(shí),有些方案中會(huì)提到“強(qiáng)化學(xué)習(xí)(Reinforcement Learning,簡(jiǎn)稱RL)”,強(qiáng)化學(xué)習(xí)是一類讓機(jī)器通過(guò)試錯(cuò)來(lái)學(xué)會(huì)做決策的技術(shù)。簡(jiǎn)單理解下,就是一個(gè)智能體在環(huán)境里行動(dòng),它能觀察到環(huán)境的一些信息,并做出一個(gè)動(dòng)作,然后環(huán)境會(huì)給出一個(gè)反饋(獎(jiǎng)勵(lì)或懲罰),智能體的目標(biāo)是把長(zhǎng)期得到的獎(jiǎng)勵(lì)累積到最大。和監(jiān)督學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)沒(méi)有一一對(duì)應(yīng)的“正確答案”給它看,而是靠與環(huán)境交互、自我探索來(lái)發(fā)現(xiàn)哪些行為好,哪些行為不好。在聊到強(qiáng)化學(xué)習(xí)時(shí),常會(huì)出現(xiàn)“狀態(tài)”“動(dòng)作”“獎(jiǎng)勵(lì)”“策略”“價(jià)值”等詞,分別對(duì)應(yīng)著智能體感知的環(huán)境信息、它能采取的行為、環(huán)境給的好壞評(píng)價(jià)、依據(jù)怎樣選擇動(dòng)作的規(guī)則,以及衡量從某個(gè)狀態(tài)出發(fā)未來(lái)能獲得多少回報(bào)的估值。
對(duì)于自動(dòng)駕駛汽車(chē)來(lái)說(shuō),車(chē)輛本身就是一個(gè)智能體,道路和交通參與者構(gòu)成環(huán)境,傳感器的輸出是狀態(tài),車(chē)輛轉(zhuǎn)向、加速、制動(dòng)是動(dòng)作,是否安全、是否平順、是否準(zhǔn)時(shí)等可以組合成獎(jiǎng)勵(lì)。強(qiáng)化學(xué)習(xí)的核心優(yōu)勢(shì)在于能直接優(yōu)化長(zhǎng)期目標(biāo),如在復(fù)雜路口做出既安全又高效的決策;但它的試錯(cuò)特性在真實(shí)道路上顯然不安全,所以強(qiáng)化學(xué)習(xí)通常依賴高保真仿真、離線數(shù)據(jù)和混合方法來(lái)落地。
強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛中的應(yīng)用場(chǎng)景
強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛里比較典型的應(yīng)用有低層控制、行為決策、局部軌跡優(yōu)化與策略學(xué)習(xí)等。在低層控制中,強(qiáng)化學(xué)習(xí)可以學(xué)習(xí)在特定車(chē)輛動(dòng)力學(xué)下做轉(zhuǎn)向/速度控制的策略,優(yōu)勢(shì)是能在非線性和復(fù)雜摩擦條件下表現(xiàn)得更魯棒。在行為決策上,像交叉路口的黃燈時(shí)機(jī)選擇、變道策略、跟車(chē)間距調(diào)整這樣的長(zhǎng)期權(quán)衡問(wèn)題,強(qiáng)化學(xué)習(xí)能自然把安全、舒適和效率放在同一個(gè)目標(biāo)里去優(yōu)化。在局部軌跡優(yōu)化時(shí),強(qiáng)化學(xué)習(xí)可以在動(dòng)態(tài)障礙與復(fù)雜約束下生成短周期的軌跡調(diào)整,而不是單純靠基于模型的最優(yōu)控制求解每一步。
現(xiàn)階段端到端被眾多企業(yè)應(yīng)用到自動(dòng)駕駛中,端到端,即從相機(jī)或傳感器輸入直接映射到控制命令。端到端強(qiáng)化學(xué)習(xí)在實(shí)驗(yàn)室里能展示非常驚艷的效果,但在樣本效率、可解釋性和安全驗(yàn)證方面有很大短板,所以會(huì)采用強(qiáng)化學(xué)習(xí)輔助或作為策略搜索工具,而不是直接替換整個(gè)堆棧。
強(qiáng)化學(xué)習(xí)的實(shí)現(xiàn)要點(diǎn)與關(guān)鍵技術(shù)
對(duì)于強(qiáng)化學(xué)習(xí)來(lái)說(shuō),首先要解決的是如何定義狀態(tài)與獎(jiǎng)勵(lì)。狀態(tài)既要包含足夠的信息讓策略做出正確決策,又不能過(guò)于冗余導(dǎo)致學(xué)習(xí)困難。獎(jiǎng)勵(lì)設(shè)計(jì)則非常敏感,獎(jiǎng)勵(lì)信號(hào)如果不合理會(huì)導(dǎo)致“獎(jiǎng)勵(lì)劫持”或“走捷徑”現(xiàn)象,模型學(xué)到的策略看似得分高但行為危險(xiǎn)。因此在自動(dòng)駕駛里,獎(jiǎng)勵(lì)通常是多項(xiàng)組合,不僅要包括安全相關(guān)的大幅負(fù)分(如發(fā)生碰撞、侵占對(duì)向車(chē)道),也會(huì)按舒適度、軌跡偏差、到達(dá)時(shí)間等給予細(xì)致的正負(fù)反饋。同時(shí)會(huì)用約束或懲罰項(xiàng)來(lái)確保最低安全邊界,而不是單靠稀薄的到達(dá)獎(jiǎng)勵(lì)。

樣本效率對(duì)于強(qiáng)化學(xué)習(xí)來(lái)說(shuō)也是非常關(guān)鍵的一個(gè)技術(shù)因素,很多經(jīng)典強(qiáng)化學(xué)習(xí)算法需要海量交互數(shù)據(jù),而在自動(dòng)駕駛中真實(shí)道路數(shù)據(jù)代價(jià)極高。為此普遍依賴高質(zhì)量仿真環(huán)境進(jìn)行訓(xùn)練,并結(jié)合領(lǐng)域隨機(jī)化、域適應(yīng)、以及模型預(yù)訓(xùn)練等技術(shù)縮小仿真到現(xiàn)實(shí)的差距。還有一種做法是離線強(qiáng)化學(xué)習(xí),利用大量已記錄的駕駛軌跡進(jìn)行策略學(xué)習(xí),避免實(shí)時(shí)探索風(fēng)險(xiǎn),但離線強(qiáng)化學(xué)習(xí)本身對(duì)分布偏差和保守性有特殊要求。
算法選擇與架構(gòu)對(duì)于強(qiáng)化學(xué)習(xí)來(lái)說(shuō)依然重要,基于值的算法(比如Q-learning及其深度版本DQN)適合離散動(dòng)作空間,但實(shí)際車(chē)輛控制通常是連續(xù)的,所以更多會(huì)采用策略梯度類方法(例如REINFORCE、PPO)或演員-評(píng)論家(Actor-Critic)架構(gòu)。演員-評(píng)論家結(jié)合了策略直接優(yōu)化和價(jià)值估計(jì)的優(yōu)勢(shì),在樣本利用和穩(wěn)定性上表現(xiàn)較好。對(duì)于需要長(zhǎng)期規(guī)劃與短期控制結(jié)合的場(chǎng)景,層次化強(qiáng)化學(xué)習(xí)能把高層決策(如選擇變道/保持車(chē)道)和低層控制(如具體轉(zhuǎn)向角)分開(kāi)學(xué)習(xí),降低復(fù)雜度并提高可解釋性。
安全與穩(wěn)定性對(duì)于強(qiáng)化學(xué)習(xí)來(lái)說(shuō)非常重要,因此在訓(xùn)練過(guò)程中需要引入安全過(guò)濾器、可驗(yàn)證的約束層或備用控制策略。在部署時(shí)可采用“安全外殼”設(shè)計(jì),強(qiáng)化學(xué)習(xí)策略輸出建議動(dòng)作,但在動(dòng)作被實(shí)際執(zhí)行前先通過(guò)基于模型的約束檢查或已驗(yàn)證的追隨控制器。這樣即使強(qiáng)化學(xué)習(xí)策略出現(xiàn)異常,車(chē)輛也能回退到保守、安全的行為。
為了探索長(zhǎng)尾場(chǎng)景,在技術(shù)設(shè)計(jì)時(shí)要采用聚類化采樣、風(fēng)險(xiǎn)驅(qū)動(dòng)的優(yōu)先經(jīng)驗(yàn)回放、以及基于場(chǎng)景的Curriculum Learning(從簡(jiǎn)單到復(fù)雜逐步訓(xùn)練)來(lái)引導(dǎo)學(xué)習(xí)。對(duì)抗性訓(xùn)練也常被用來(lái)生成更具挑戰(zhàn)性的場(chǎng)景,從而提高策略魯棒性。
限制、風(fēng)險(xiǎn)與工程落地建議
強(qiáng)化學(xué)習(xí)面臨的一個(gè)核心限制是可驗(yàn)證性與可靠性。自動(dòng)駕駛是高安全要求的系統(tǒng),監(jiān)管和商業(yè)部署需要強(qiáng)有力的可解釋性與可復(fù)現(xiàn)的驗(yàn)證流程。純粹依賴黑箱強(qiáng)化學(xué)習(xí)策略的系統(tǒng)很難通過(guò)法規(guī)和安全審查,因此很多企業(yè)把強(qiáng)化學(xué)習(xí)作為策略優(yōu)化和能力補(bǔ)強(qiáng)的工具,而不是替代現(xiàn)有基線控制和規(guī)則引擎。

獎(jiǎng)勵(lì)設(shè)計(jì)不成熟導(dǎo)致表面上“完美”但實(shí)際有害的行為也是強(qiáng)化學(xué)習(xí)經(jīng)常會(huì)遇到的問(wèn)題。舉個(gè)容易理解的例子,如果把“盡量快到達(dá)目的地”作為主要目標(biāo),而未對(duì)安全擾動(dòng)給出足夠懲罰,模型可能在復(fù)雜交通中做出冒險(xiǎn)超車(chē)等行為。因此要把硬性安全約束放在首位,把效率和舒適度作為可優(yōu)化的次級(jí)目標(biāo),并通過(guò)詳細(xì)的仿真場(chǎng)景和對(duì)抗測(cè)試來(lái)發(fā)現(xiàn)潛在的“獎(jiǎng)勵(lì)黑箱”問(wèn)題。
想讓自動(dòng)駕駛技術(shù)落地,應(yīng)采取分層策略,在仿真里用強(qiáng)化學(xué)習(xí)做策略搜索和參數(shù)調(diào)優(yōu),生成候選策略后在離線回放數(shù)據(jù)上驗(yàn)證,接著在受控封閉場(chǎng)地進(jìn)行帶人或遙控測(cè)試,再逐步放寬場(chǎng)景。并且應(yīng)把強(qiáng)化學(xué)習(xí)模塊設(shè)計(jì)為可插拔、可回退的子系統(tǒng),有明確的監(jiān)控指標(biāo)和安全撤退機(jī)制。對(duì)數(shù)據(jù)與模型應(yīng)保存完整實(shí)驗(yàn)記錄,支持線下審計(jì)與回放復(fù)現(xiàn)。
混合方法通常比純強(qiáng)化學(xué)習(xí)更實(shí)用。把模仿學(xué)習(xí)用于初始化策略可以大幅降低訓(xùn)練難度;把基于模型的規(guī)劃與基于學(xué)習(xí)的策略結(jié)合能兼顧理論可解釋性與經(jīng)驗(yàn)表現(xiàn)。離線強(qiáng)化學(xué)習(xí)、保守策略梯度、以及安全約束優(yōu)化等技術(shù)的應(yīng)用都是常見(jiàn)的折衷方案。
如何把強(qiáng)化學(xué)習(xí)安全地帶入自動(dòng)駕駛
強(qiáng)化學(xué)習(xí)為自動(dòng)駕駛帶來(lái)的并不是一套現(xiàn)成的解決方案,而是一種強(qiáng)有力的決策優(yōu)化工具。它擅長(zhǎng)處理那些帶有長(zhǎng)期依賴、稀疏反饋和復(fù)雜交互的任務(wù),但在樣本效率、安全驗(yàn)證與可解釋性方面仍需工程化的補(bǔ)強(qiáng)。想把強(qiáng)化學(xué)習(xí)安全地帶入自動(dòng)駕駛,更合理的路線是把強(qiáng)化學(xué)習(xí)作為補(bǔ)充和增強(qiáng),在仿真環(huán)境中探索策略、在離線數(shù)據(jù)上穩(wěn)健化、用規(guī)則與約束保證安全、在真實(shí)道路上逐步驗(yàn)證并留有回退。只有在設(shè)計(jì)時(shí)明確邊界、構(gòu)建嚴(yán)格的測(cè)試與回滾機(jī)制,強(qiáng)化學(xué)習(xí)才能把它的優(yōu)勢(shì)轉(zhuǎn)化為可部署、可審計(jì)的自動(dòng)駕駛能力。
-- END --
原文標(biāo)題 : 自動(dòng)駕駛中常提的“強(qiáng)化學(xué)習(xí)”是個(gè)啥?
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來(lái)了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-

長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
6月30日立即申請(qǐng)?jiān)囉?> 【免費(fèi)試用】旭之源工業(yè)電源一一機(jī)器人的穩(wěn)定“心臟“
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來(lái)·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
推薦專題
-
2 華為,重大突破!
- 1 人形機(jī)器人“第一股”來(lái)了!宇樹(shù)科技即將上會(huì)
- 2 全球股市陷AI獨(dú)大結(jié)構(gòu)性瘋狂
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 DeepSeek融資500億,梁文鋒難逃資本局
- 5 谷歌2026 I/O大會(huì)完整回顧:模型依然重要,但智能體正在接管一切
- 6 全球資本,重倉(cāng)中國(guó)機(jī)器人
- 7 Figure AI 交付突破350臺(tái),陪跑特斯拉會(huì)迎來(lái)iPhone 時(shí)刻嗎?
- 8 Anthropic發(fā)布2028年全球AI領(lǐng)導(dǎo)力的兩種情景報(bào)告
- 9 “國(guó)產(chǎn)GPU第一股”摩爾線程首季扭虧,但造血能力仍待考驗(yàn)
- 10 特斯拉宣布監(jiān)督版FSD登陸中國(guó)?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





