跨越VLA的“虛實鴻溝”，中國具身智能大模型長出“新大腦”

2026-06-15 13:57

機器人的這顆“大腦”，不是只有一種答案

當具身智能行業里大多數玩家都在搶灘IPO時，有人卻把重心放在了大模型上。

一面是宇樹科技科創板IPO過會、智元啟動赴港IPO，行業從一級市場加速向二級市場遷徙；另一面，行業內部的路線競爭卻在肉眼可見地白熱化，從硬件形態之爭，到數據來源之爭，再到如今最核心的“大腦”架構之爭。

在這個當口，國內兩家具身智能公司幾乎同時拿出了各自的“答卷”。

5月29日，自變量機器人發布了全球首個「事件級預測」具身智能世界模型WALL-WM，顛覆了行業沿用數十年的“按幀學習”范式；6月初，星海圖緊隨其后推出了新一代具身基礎模型G0.5，在七項獨立評測中全面領先，并在業界公認最難的長程任務基準BEHAVIOR-1K上，以一個通用策略模型，擊敗了π0.5和以往依賴多個專用模型的冠軍方案。

在行業普遍“重硬件、輕軟件”的敘事慣性下，這兩家公司為什么偏偏選擇了這條既慢又重的路？

01大模型的“天花板”被捅破了？

目前市面上主流的具身智能企業，絕大多數都采用了VLA（視覺-語言-動作）這條技術路線。但在VLA范式下，具身智能模型的進化天花板其實肉眼可見。

首當其沖的便是“虛實鴻溝”這一世界性難題。2026年4月，斯坦福大學發布的《AI Index Report 2026》揭示了一個令人警醒的現實：由于仿真環境難以完全模擬真實世界的物理屬性，某些機器人在仿真環境中高達89.4%成功率，在真實家庭場景中驟降至12%。

與此同時，VLA模型依賴互聯網圖文數據訓練，雖能識別物體，卻難以真正理解施力、形變等物理交互規律，被業內戲稱為“缸中大腦”。

更棘手的是，VLA在通用化與自主化維度的脆弱泛化能力，導致一旦場景變化或任務鏈條拉長，成功率便會劇烈下降。正是這種數據驅動下的“盲走”，卡住了行業的瓶頸。

面對這一結構性天花板，星海圖和自變量機器人，幾乎同時從兩個截然不同的方向給出了各自的回答。

首先，星海圖G0.5的做法，可以理解為在VLA架構內部做了一次徹底的“底層重構”。

它跳出了傳統VLA“VLM做編碼器+獨立動作專家”的路徑依賴，在這條路上，VLM輸出的隱藏狀態要經過壓縮才能傳遞給動作模塊，核心推理能力被稀釋了大半。G0.5的解法相當直接：讓同一個模型、同一套權重，在自回歸token序列中同步生成推理token與動作token。自此，VLM的鏈式思維、上下文學習、prompt調制等生成式能力，可以原生作用于動作生成，中間不再隔著那個讓信息嚴重損耗的壓縮瓶頸。

而這套架構落地，靠的是一項不小的工程功。

G0.5引入了跨本體動作編解碼器，將18種機器人本體數據統一到27維動作空間，并通過“活躍自由度預測”機制避免為靜止關節浪費token。例如在雙臂任務中，這套稀疏設計就能節省將近一半的token量。

原生思維鏈機制則讓模型在生成動作前先輸出子任務分解、目標框等推理token，這些推理結果與動作token受同一損失函數約束，真正實現了“邊思考邊行動”。

再加上時空注意力模塊通過分解的時空注意力機制，將歷史視覺信息融入當前決策，尤其適用于需要反復穿越空間的長程任務。

量化數據更能說明問題。

在真實機器人數據集DROID的10項桌面任務中，G0.5未經任何微調即達82.5%的平均成功率，較前代模型提升25個百分點；在SimplerEnv-Bridge跨數據集遷移測試中取得87.3%的成績，超越所有對比模型；在雙臂協調測試RoboTwin 2.0中取得93.3%的平均成績……

最直觀的檢驗來自BEHAVIOR-1K，包含50個完整家庭場景的長程任務，單次演示平均時長6.6分鐘。G0.5僅用單個預訓練模型訓練1個epoch，就以0.2904的任務成功率超越了前代訓練4個周期的成績，更勝過使用4個模型集成的冠軍方案。

如果說G0.5是對VLA的一次“內部大重構”，那么自變量機器人團隊帶來的全球首個「事件級預測」具身智能世界模型WALL-WM則是徹底換了一條賽道。它不再走VLA的老路，而是從“世界模型”的視角重新思考機器人怎么學動作。

傳統VLA的思路是把機器人動作切成固定長度的“幀塊”來學：預測0.1秒后手在哪、0.2秒后手在哪……把一個抓杯子的動作拆成幾十張幾乎雷同的畫面，讓模型一幀一幀去死記硬背。

結果就是，模型記住的是“手指每幀挪幾毫米”，而不是“抓住杯子”這個目標。如果在這時換個桌子、換種節奏，就會立刻翻車。

為了實現這一關鍵突破，自變量團隊在論文中指出，文本、視覺、動作這三類信息在高維空間中具有不同的流形幾何與時間尺度，“完全對齊”在本質上就是不現實的。

文本是低熵離散語義，視覺是高維連續場景動態，動作則被物理世界強約束，三者既不共享空間鄰域也不共享時間尺度，強行壓入同一共享空間，只會讓預訓練先驗在動作捷徑中被覆蓋。這也能解釋為何相當多數VLA仿真效果亮眼，真機落地卻大打折扣。

所以WALL-WM的解法則相當“反常識”。它把預測單位從時間幀換成了語義事件——伸手、抓取、提起、移動、放置，這些有明確物理意義的行為片段，才是機器人真正需要學會的東西。這時，模型不再問“0.1秒后是什么樣”，而是直接想象“抓住杯子那一刻”是什么樣，并基于這個想象同步生成抵達它的動作。

具體來說，WALL-WM做的不是直接從畫面生成動作，而是先讓模型理解“下一個事件會讓世界怎么變”，再把這種變化翻譯成機器人該執行的軌跡。這背后是一整套從感知到控制的路徑重構：事件指令入口告訴模型“下一步要做什么”；事件世界模型負責預演“下一個事件會讓世界怎么變”；動作生成層將這種變化翻譯成機器人可執行的軌跡。

總的來看，G0.5和WALL-WM在VLA路線逐漸逼近天花板的行業節點上，分別從“架構內部重構”和“換道世界模型”兩個方向撕開了一道裂縫，第一次讓行業知道機器人這顆“大腦”，不再只有一種答案。

02什么樣的土壤，長出了這兩顆“大腦”？

技術突破從來不是憑空發生的。

G0.5和WALL-WM的背后，是兩家公司在技術路線選擇、數據策略和資本布局上的長期定力。其中最顯著的共性，在于對“大腦先行”戰略的堅持。

星海圖創始人高繼揚出身Waymo和Momenta的自動駕駛量產研發一線，其創始團隊兼具清華學術背景與一線工程實戰經驗。在行業普遍遵循“硬件先行”邏輯的背景下，星海圖反其道而行之——將大量精力投入大模型的預訓練架構設計，用工廠和商業場所的真實部署數據持續反哺G系列模型迭代。

自變量則更純粹，從創立之初就確立了“大小腦統一的端到端大模型”的技術路線。他們認為，“大腦”不是AI模型的下游應用，而是與語言大模型平行存在的物理世界基礎模型。

不過，雖然兩家公司都押注了“大腦先行”這條更“重”卻更真實的路線，但在路徑選擇上卻各有側重。

星海圖走的是“整機+智能”的軟硬一體策略，產品矩陣已覆蓋輪式雙臂機器人R1系列、雙足人形機器人Kengo及多款本體硬件，同時提供預訓練模型、數據采集、評測、微調、部署等完整后訓練工具鏈。2026年公司已收獲國內頭部汽車制造商與智慧物流企業的千臺級訂單。

并且，星海圖并未將技術路線局限于單一的VLA框架。早在2026年3月，團隊便先行發布了世界模型研究成果Fast-WAM，徹底告別了“先想象、后執行”的傳統低效范式，通過對模型底層邏輯的深度重構，將單步推理延遲壓縮至190毫秒，在保持SOTA性能的同時實現4倍提速，為具身智能的規模化產業落地鋪平了道路。

自變量同樣踐行軟硬一體，但更突出“模型驅動硬件”的底層邏輯。公司已發布“量子一號”“量子二號”兩款機器人本體，并實現機械臂、關節模組、動力驅動器等核心零部件的全面自研。創始人王潛也提出，具身智能的核心競爭在于數據閉環構建與模型進化能力。