中國版Wayve決戰端到端,等待數據的大力出奇跡
作者 |王博
編輯 |德新

「人工智能的定律只有一個,就是規模定律(Scaling Law),大力出奇跡。端到端是描述方式,更應該去考慮如何去生產更多的自動駕駛合適的數據,來喂養更大更合適的模型,取得更好效果。」
這段話,出自毫末智行CEO顧維灝。
近日,顧在2024未來汽車先行者大會上,提到了他認為的端到端競爭的關鍵點。
端到端的出現,讓自動駕駛今年再獲資本熱捧。
不久前,自動駕駛圈剛曝出一輪10.5億美金的融資消息,軟銀領投,英偉達、微軟跟投,獲投方是一家名為Wayve的英國自動駕駛公司。
這是軟銀在自動駕駛領域的最新一筆投資,之前其已在Cruise、Stack AV等公司身上花掉數十億美金。
Wayve自2017年成立至今,推出的核心產品是GAIA-1、LINGO-2兩個自動駕駛大模型,主打端到端大模型。
這一點,和毫末在端到端的布局頗為相像。

毫末已搭建自監督感知大模型、自監督認知大模型,并開始進行端到端訓練等,雖然命名方式不同,但與Wayve的思考路徑相似。
自動駕駛將大模型引入后,解題思路完全改變。
從以自動駕駛工程師手寫規則,指導車輛如何駕駛為主,切換到以AI來答卷,讓神經網絡大模型決定如何開車,程序員終于可以「少掉頭發」。
10億美金融資,讓外人見識到自動駕駛大模型的受關注程度。而其實,在智駕標桿特斯拉和自動駕駛的熱土中國公司毫末這里,大模型上車已經初試牛刀,勝出希望寄托在數據的大力出奇跡。
一、換種思路,解決頭疼問題
大模型概念興起于NLP領域,直到ChatGPT出現后,GPT這一全新的訓練范式迅速被自動駕駛從業者認同,行業上下如獲至寶。
在GPT被引入之前,2004年美國DARPA那場自動駕駛比賽之后的十多年里,研發模式仍與當年的DAPRA如出一轍。
以識別車道線為例,傳統操作步驟是,先采集車道線數據,然后進行人工標注,再把標注完的數據訓練成一個模型,最后把模型部署上車,再使用規則控制車輛做出決策。
這可以稱之為小模型加手工規則。
GPT被引入自動駕駛后,研發模式煥然一新。
在大模型領域一早布局的Wayve,成立于2017年,直接跳過了傳統的自動駕駛研發模式,瞄準大模型發力。
只不過,業內最先看到的是特斯拉。
在去年6月舉行的CVPR 2023上,特斯拉Autopilot軟件總監Ashok Elluswamy透露,團隊正在訓練一個更通用的世界模型。
特斯拉引入大模型,一部分原因在于,傳統的自動駕駛研發模式,在城市場景中遇到了困難。
仍以車道線場景為例,實時預測車道線一度是自動駕駛頭疼的問題。“車道是三維數據,會分叉、合并,很難建模。”Ashok Elluswamy解釋道。
特斯拉的做法是,基于生成式大模型,采用自回歸Transformer,將車道令牌化,一次一個令牌地對車道進行預測,對分叉點、合并點進行預測。
其實,早于Ashok Elluswamy演講前一天,Wayve已在自家官方博客上發布GAIA-1,一個用于自動駕駛的生成式大模型。

幾個月后,這一模型擴展至90億參數,Wayve開始能夠生成逼真的駕駛場景視頻,展示自動駕駛“在各種情境的反應”,且可以更好地預測未來事件。
今年4月,在NVDIA GTC的舞臺上,Wayve CEO Alex Kendall演講時表示,「自動駕駛行業花費了太多時間聚焦在復雜解法上,比如手動編碼規則和高精地圖。」
他列出幾個自動駕駛誤區,第一個便是,以為解決感知問題就搞定了自動駕駛。
“要想創造一種讓人們感到高興并信任的體驗,關鍵不僅僅是能夠看到世界。真正的問題在于決策,多智能體復雜推理,才是自動駕駛問題的核心。”他說。
軟銀領投的那筆10.5億美金,也在不久后被官宣,Wayve開始被更多自動駕駛領域的從業者認識和關注。
二、中國版Wayve,入局端到端
將大模型引入自動駕駛,Wayve同行者不止有特斯拉,還有中國的自動駕駛公司。
在國內,大家較早聽聞大模型消息的玩家中,其中一家是開頭提到的毫末。
毫末發布的DriveGPT這一生成式大模型,可用于自動駕駛的感知、決策任務。
開啟GPT時刻之前,毫末最初采用的是encoder+dedocer模型,輸入一串圖片,模型會輸出一串自動駕駛決策動作。
后來,這家公司還采用基于encoder自編碼的訓練方式,輸入感知結果,mask司機的駕駛行為,讓系統猜司機的駕駛行為。
ChatGPT出現后,毫末很快發現GPT的高效能力,就此入局。
生成式大模型有一大任務,可以歸納為:“建立了一個神經網絡,以過去或其他輸入為條件,預測未來。”
不同的是,Wayve和特斯拉輸入的是視頻序列,也就是一段過去的視頻,神經網絡會預測未來可能發生的事情,生成一段預測的視頻序列。
毫末生成的是BEV序列,向大模型輸入一段過去10秒的感知場景,大模型會生成一段未來2 - 3秒的場景。
無論各家輸入的是視頻還是BEV序列,邏輯是相同的。
這一方式,與人類司機駕駛根據道路狀況做出駕駛決的做法頗為相似。它一改傳統的手寫規則,轉而讓神經網絡決定如何開車,相當于借助大模型短暫預測了未來。
生成式大模型可以用于自動駕駛認知決策,這是一個很好的開始。
同時,毫末也在訓練基于自監督的通用感知大模型,并最終希望將感知大模型、認知大模型打通,并引入大語言模型LLM來獲得世界知識,實現端到端訓練。
發布GAIA-1幾個月后,2023年9月,Wayve又在自家官方博客上發文,介紹了LINGO-1,一款開環的Driving Commentator C(自動駕駛評論員),這是一個基于視覺、語言、動作的自動駕駛交互模型,可以用于解釋自動駕駛系統的行為邏輯。
今年4月, Wayve推出的LINGO-2,為自動駕駛體驗開辟全新的控制和定制維度,也是一個在公共道路上進行測試的視覺語言動作模型(VLAM)。這一多模態大模型被用于增加決策的可解釋性。
在Wayve的官方視頻中,用戶可以和車輛進行對話,對行駛路線等問題進行提問,LINGO-2會給出回應,并能實時解釋每一項決策背后的過程。
毫末的做法與之相似。
他們意識到,在構建對真實物理世界的4D感知基礎上,通過多模態大模型,實現文、圖、視頻多模態信息的整合,從而完成4D向量空間到語義空間的對齊,實現跟人類一樣的“識別萬物”的能力。
與Wavye類似,毫末也嘗試引入大語言模型LLM,并利用自動駕駛領域數據finetune后,使得LLM成為一個老司機,通過與LLM交互,能夠獲取豐富的世界知識,甚至能提出決策規劃建議。
三、奔赴端到端,解決后續上車問題
大模型時代,人們見證了初出茅廬ChatGPT 3.0,很快又見識到更強的文生視頻Sora,再到最近炸場的GPT-4o。
這些產品所采用的新技術,為自動駕駛持續輸送思想的養料。
從Wayve和毫末等公司的實踐看,大家都在遵循著大模型的思路,但仍會分階段地推進,比如會推出解決某個模塊任務大模型。
在探索自動駕駛最為積極的中國,玩家們會單獨布局面向感知的大模型,然后布局用于駕駛決策的規控大模型。雖然這一過程中,某些地方還會用到CNN卷積神經網絡,但整體會以Transformer為主。
所以,Wayve推出GAIA-1也好,LINGO-2也好,這些大模型也會進行統一,成為端到端大模型。
而毫末發布的DriveGPT,同樣是將自動駕駛生成式大模型、多模態大模型、LLM等統一起來后的產物。
之后,就是 自動駕駛大模型上車,將大模型從云端搬到車端的過程。
鑒于人工智能大模型的競賽,是涉及算法、數據、算力的挑戰,自動駕駛的競爭也會圍繞這些維度展開。
進入端到端的大門,僅僅是第一步,緊接著就是數據的比拼。
正如顧維灝所說,自動駕駛經歷了硬件驅動、軟件驅動,現在正進入數據驅動時代。“數據驅動有一個很典型的特征就是它是大模型的,更多通過模型來實現整個的過程。“
更多的數據,會讓自動駕駛玩家們開始比拼算力,囤積成千上萬塊GPU,從而在云端完成自動駕駛大模型的訓練。還要不斷進行訓練投入,傳聞ChatGPT訓練一次,需要花費1200萬美金。自動駕駛的訓練費用自然也不會少。
接下來就是大模型上車。
按照毫末的說法,動輒千億級參數的大模型,要在保持效果接近的前提下,縮小到億級才可能上車。
從量產層面看,目前僅有行業標桿特斯拉推出FSD V12,宣布將城市街道駕駛堆棧升級為端到端神經網絡,經過數百萬個視頻訓練,取代了30多萬行代碼,可以視為端到端落地的最新動向。
從一些國內自動駕駛公司的計劃看,預計在今年下半年,更多的端到端自動駕駛方案也將量產上車。
資本正在為自動駕駛大模型定價,相信Wayve融資僅是一個開始。在國內,毫末等Wayve的同行者,也許很快會獲得資本的押注。畢竟端到端大模型這條路,現在看是最有希望抵達自動駕駛彼岸的方向。
參考文獻:
Wayve CEO干貨分享:自動駕駛已浪費太多時間
VLAM會是自動駕駛的黑盒解藥嗎?
Wayve:從源頭講起,如何實現以對象為中心的自監督感知方法?
特斯拉自動駕駛的“通用世界模型”和視頻生成技術|Ashok23年CVPR主題演講
Scaling GAIA-1: 9-billion parameter generative world model for autonomous driving
Wayve - NeRF 為自動駕駛構建城市規模的神經輻射場
“大模型本質就是兩個文件!”特斯拉前AI總監爆火LLM科普
毫末智行自動駕駛公開課(第二期):數據、大算力、大模型驅動下的自動駕駛
原文標題 : 中國版Wayve決戰端到端,等待數據的大力出奇跡
請輸入評論內容...
請輸入評論/評論長度6~500個字
圖片新聞
最新活動更多
-
精彩回顧立即查看>> 【線下會議】恩智浦創新技術峰會·深圳
-
精彩回顧立即查看>> 【在線直播】可視化神器!VisionSym 賦能汽車光學原型開發
-
精彩回顧立即查看>> 12月16-17日 AMD 嵌入式峰會
-
精彩回顧立即查看>> 恩智浦創新技術峰會
-
精彩回顧立即查看>> 【工程師系列】汽車電子技術在線大會
-
精彩回顧立即查看>> Works With 開發者大會深圳站
推薦專題
- 1 2148萬樁蓄力突圍,政策組合拳如何撬動充電設施三年倍增?
- 2 “狼”又來了!FSD中國版上線前夜,小米華為誰該失眠?
- 3 2026年,各車企的自動駕駛方案到了什么階段(一)?
- 4 2026年,各車企的自動駕駛方案到了什么階段(二)?
- 5 特斯拉CEO馬斯克又放狠話:2026年無人車開遍全美,十年后自己開車成“小眾愛好”
- 6 25萬起!5月五款旗艦SUV哪款值得等
- 7 中美自動駕駛“雙人舞”:中國靠“基建狂魔”,美國賭“單車戰神”,誰將贏下未來?
- 8 雄安+58同城聯手押注,“全場景L4自動駕駛第一股”馭勢科技今天招股!市占率90.5%的隱形冠軍,憑什么穿越十年周期?
- 9 王耀:汽車智能化新趨勢:從單點突破到體系決勝 | 刊首語
- 10 物理AI浪潮下的汽車產業:從“看見世界”到“理解世界”


分享










