跨越VLA的“虛實鴻溝”,中國具身智能大模型長出“新大腦”

機器人的這顆“大腦”,不是只有一種答案
當具身智能行業里大多數玩家都在搶灘IPO時,有人卻把重心放在了大模型上。
一面是宇樹科技科創板IPO過會、智元啟動赴港IPO,行業從一級市場加速向二級市場遷徙;另一面,行業內部的路線競爭卻在肉眼可見地白熱化,從硬件形態之爭,到數據來源之爭,再到如今最核心的“大腦”架構之爭。
在這個當口,國內兩家具身智能公司幾乎同時拿出了各自的“答卷”。
5月29日,自變量機器人發布了全球首個「事件級預測」具身智能世界模型WALL-WM,顛覆了行業沿用數十年的“按幀學習”范式;6月初,星海圖緊隨其后推出了新一代具身基礎模型G0.5,在七項獨立評測中全面領先,并在業界公認最難的長程任務基準BEHAVIOR-1K上,以一個通用策略模型,擊敗了π0.5和以往依賴多個專用模型的冠軍方案。
在行業普遍“重硬件、輕軟件”的敘事慣性下,這兩家公司為什么偏偏選擇了這條既慢又重的路?
01大模型的“天花板”被捅破了?
目前市面上主流的具身智能企業,絕大多數都采用了VLA(視覺-語言-動作)這條技術路線。但在VLA范式下,具身智能模型的進化天花板其實肉眼可見。
首當其沖的便是“虛實鴻溝”這一世界性難題。2026年4月,斯坦福大學發布的《AI Index Report 2026》揭示了一個令人警醒的現實:由于仿真環境難以完全模擬真實世界的物理屬性,某些機器人在仿真環境中高達89.4%成功率,在真實家庭場景中驟降至12%。
與此同時,VLA模型依賴互聯網圖文數據訓練,雖能識別物體,卻難以真正理解施力、形變等物理交互規律,被業內戲稱為“缸中大腦”。
更棘手的是,VLA在通用化與自主化維度的脆弱泛化能力,導致一旦場景變化或任務鏈條拉長,成功率便會劇烈下降。正是這種數據驅動下的“盲走”,卡住了行業的瓶頸。
面對這一結構性天花板,星海圖和自變量機器人,幾乎同時從兩個截然不同的方向給出了各自的回答。
首先,星海圖G0.5的做法,可以理解為在VLA架構內部做了一次徹底的“底層重構”。
它跳出了傳統VLA“VLM做編碼器+獨立動作專家”的路徑依賴,在這條路上,VLM輸出的隱藏狀態要經過壓縮才能傳遞給動作模塊,核心推理能力被稀釋了大半。G0.5的解法相當直接:讓同一個模型、同一套權重,在自回歸token序列中同步生成推理token與動作token。自此,VLM的鏈式思維、上下文學習、prompt調制等生成式能力,可以原生作用于動作生成,中間不再隔著那個讓信息嚴重損耗的壓縮瓶頸。
而這套架構落地,靠的是一項不小的工程功。
G0.5引入了跨本體動作編解碼器,將18種機器人本體數據統一到27維動作空間,并通過“活躍自由度預測”機制避免為靜止關節浪費token。例如在雙臂任務中,這套稀疏設計就能節省將近一半的token量。

原生思維鏈機制則讓模型在生成動作前先輸出子任務分解、目標框等推理token,這些推理結果與動作token受同一損失函數約束,真正實現了“邊思考邊行動”。

再加上時空注意力模塊通過分解的時空注意力機制,將歷史視覺信息融入當前決策,尤其適用于需要反復穿越空間的長程任務。

量化數據更能說明問題。
在真實機器人數據集DROID的10項桌面任務中,G0.5未經任何微調即達82.5%的平均成功率,較前代模型提升25個百分點;在SimplerEnv-Bridge跨數據集遷移測試中取得87.3%的成績,超越所有對比模型;在雙臂協調測試RoboTwin 2.0中取得93.3%的平均成績……
最直觀的檢驗來自BEHAVIOR-1K,包含50個完整家庭場景的長程任務,單次演示平均時長6.6分鐘。G0.5僅用單個預訓練模型訓練1個epoch,就以0.2904的任務成功率超越了前代訓練4個周期的成績,更勝過使用4個模型集成的冠軍方案。
如果說G0.5是對VLA的一次“內部大重構”,那么自變量機器人團隊帶來的全球首個「事件級預測」具身智能世界模型WALL-WM則是徹底換了一條賽道。它不再走VLA的老路,而是從“世界模型”的視角重新思考機器人怎么學動作。
傳統VLA的思路是把機器人動作切成固定長度的“幀塊”來學:預測0.1秒后手在哪、0.2秒后手在哪……把一個抓杯子的動作拆成幾十張幾乎雷同的畫面,讓模型一幀一幀去死記硬背。
結果就是,模型記住的是“手指每幀挪幾毫米”,而不是“抓住杯子”這個目標。如果在這時換個桌子、換種節奏,就會立刻翻車。
為了實現這一關鍵突破,自變量團隊在論文中指出,文本、視覺、動作這三類信息在高維空間中具有不同的流形幾何與時間尺度,“完全對齊”在本質上就是不現實的。

文本是低熵離散語義,視覺是高維連續場景動態,動作則被物理世界強約束,三者既不共享空間鄰域也不共享時間尺度,強行壓入同一共享空間,只會讓預訓練先驗在動作捷徑中被覆蓋。這也能解釋為何相當多數VLA仿真效果亮眼,真機落地卻大打折扣。
所以WALL-WM的解法則相當“反常識”。它把預測單位從時間幀換成了語義事件——伸手、抓取、提起、移動、放置,這些有明確物理意義的行為片段,才是機器人真正需要學會的東西。這時,模型不再問“0.1秒后是什么樣”,而是直接想象“抓住杯子那一刻”是什么樣,并基于這個想象同步生成抵達它的動作。
具體來說,WALL-WM做的不是直接從畫面生成動作,而是先讓模型理解“下一個事件會讓世界怎么變”,再把這種變化翻譯成機器人該執行的軌跡。這背后是一整套從感知到控制的路徑重構:事件指令入口告訴模型“下一步要做什么”;事件世界模型負責預演“下一個事件會讓世界怎么變”;動作生成層將這種變化翻譯成機器人可執行的軌跡。

總的來看,G0.5和WALL-WM在VLA路線逐漸逼近天花板的行業節點上,分別從“架構內部重構”和“換道世界模型”兩個方向撕開了一道裂縫,第一次讓行業知道機器人這顆“大腦”,不再只有一種答案。
02什么樣的土壤,長出了這兩顆“大腦”?
技術突破從來不是憑空發生的。
G0.5和WALL-WM的背后,是兩家公司在技術路線選擇、數據策略和資本布局上的長期定力。其中最顯著的共性,在于對“大腦先行”戰略的堅持。
星海圖創始人高繼揚出身Waymo和Momenta的自動駕駛量產研發一線,其創始團隊兼具清華學術背景與一線工程實戰經驗。在行業普遍遵循“硬件先行”邏輯的背景下,星海圖反其道而行之——將大量精力投入大模型的預訓練架構設計,用工廠和商業場所的真實部署數據持續反哺G系列模型迭代。

自變量則更純粹,從創立之初就確立了“大小腦統一的端到端大模型”的技術路線。他們認為,“大腦”不是AI模型的下游應用,而是與語言大模型平行存在的物理世界基礎模型。

不過,雖然兩家公司都押注了“大腦先行”這條更“重”卻更真實的路線,但在路徑選擇上卻各有側重。
星海圖走的是“整機+智能”的軟硬一體策略,產品矩陣已覆蓋輪式雙臂機器人R1系列、雙足人形機器人Kengo及多款本體硬件,同時提供預訓練模型、數據采集、評測、微調、部署等完整后訓練工具鏈。2026年公司已收獲國內頭部汽車制造商與智慧物流企業的千臺級訂單。

并且,星海圖并未將技術路線局限于單一的VLA框架。早在2026年3月,團隊便先行發布了世界模型研究成果Fast-WAM,徹底告別了“先想象、后執行”的傳統低效范式,通過對模型底層邏輯的深度重構,將單步推理延遲壓縮至190毫秒,在保持SOTA性能的同時實現4倍提速,為具身智能的規模化產業落地鋪平了道路。
自變量同樣踐行軟硬一體,但更突出“模型驅動硬件”的底層邏輯。公司已發布“量子一號”“量子二號”兩款機器人本體,并實現機械臂、關節模組、動力驅動器等核心零部件的全面自研。創始人王潛也提出,具身智能的核心競爭在于數據閉環構建與模型進化能力。

在這一時間節點,6月9日,智元(AGIBOT)也推出行業首個開放且完整的具身智能生態技術體系——AIMA(AI Machine Architecture),正式啟動“元苼”生態發展計劃,未來五年將投入20億元專項資金。這進一步預示行業正在從“本體”之爭轉向“機器人大腦”之爭。
不論是G0.5、WALL-WM,還是智元在此時推出的AIMA生態,它們的誕生并非偶然,而是技術路線、數據策略與資本布局共同作用的必然結果。當資本逐漸冷靜,數據壁壘與模型架構的分水嶺愈發清晰,行業或許正在達成一個共識:真正的護城河,不在關節靈活度與量產規模之中,而在代碼深處。
* 圖片來源于網絡,侵權請聯系刪除
原文標題 : 跨越VLA的“虛實鴻溝”,中國具身智能大模型長出“新大腦”
請輸入評論內容...
請輸入評論/評論長度6~500個字


分享













