“事件級”世界模型WALL-WM：機器人的大腦，終于學會“抓重點”了

2026-06-01 11:26

星河頻率

關注

作者｜蘇涵

你每天早上過馬路，需要同時算清楚對面那輛車的車速、距離和你走完斑馬線所需的 3.5 秒嗎？

當然不需要。你只會快速看一眼，心里默默判斷一個關鍵問題：「車會不會撞到我？」然后決定是走還是停。

整個過程不到一秒，消耗的能量微乎其微。但今天的機器人，幾乎都在做前一種事。

它們被設定為按固定頻率來預測世界的下一秒，每秒 30 次、50 次，哪怕明知道接下來的 0.5 秒什么都沒發生，它也必須算完。

這就像你每天早上出門前，都要完整計算一遍過馬路的 300 個步驟才敢邁出第一步。

累不累？當然累。

關鍵是，大部分計算都是白費的。這就是當前機器人「時靈時不靈」的根本原因之一：

它們太聽話了，聽話到對每一幀、每一秒都平均用力，從不問自己「什么事值得想，什么事不用想」。

5 月 29 日，自變量機器人推出首個具備「事件級預測能力」的世界模型：Wall-WM。

它的核心就是跳出「按時間均勻采樣」的舊范式，模型不再機械地預測每一幀，而是判斷哪些瞬間真正重要。

換句話說，Wall-WM 讓機器人終于學會了「抓重點」。

然而，這個世界模型的推出，到底意味著什么？

為什么「抓重點」這種人類與生俱來的能力，放到機器人身上就成了底層技術革新？要回答這些問題，得先從機器人「大腦」的工作方式說起。

從機械模仿到真正理解，Wall-WM 是如何做到的？

目前行業主流的機器人「大腦」叫 VLA（視覺-語言-動作）。聽名字就知道，一個負責「看」，一個負責「聽懂人話」，一個負責「動手」。

聽起來挺合理，但問題在于，這三個模塊是串聯的：視覺模塊把看到的東西傳給語言模塊，語言模塊理解后再傳給動作模塊。每傳一次，信息就打一次折扣。

這就是為什么很多機器人看起來很「笨」。不是因為它沒看到，而是因為它看到的信息在傳到「動手」模塊時，已經丟失了一大半。那有沒有什么辦法可以改進？

自變量機器人給出的答案是，通過 Wall-WM 這一世界模型，先換掉它思考的時間單位。

傳統模型按固定頻率預測未來，每秒 30 次、50 次，每一幀都用力。哪怕接下來的 0.5 秒什么都沒發生，它也必須算完，這叫「幀級預測」。

但自變量機器人換了一套邏輯：以「事件」為單位來預測。

什么是事件？伸手、抓取、提起、移動、放置，這些在一段時間內連貫、有明確意義的動作片段，就是事件。

模型只在世界發生「重要變化」時才重新調整預測。

比如「杯子開始滑落」是一個事件，「手碰到了杯子」是另一個事件。其他時間，它不需要每秒思考 30 次。

更重要的是，它學到的不是「第 10-20 幀我要執行指令 X」，而是在此事件下，物理世界將如何演化、我應當如何執行。

但這里有一個隱藏的難題：

如果讓機器人在學新動作的同時，把原來好不容易學會的視覺能力給忘掉了，怎么辦？Wall-WM 在設計上專門考慮了這個「學新不忘舊」的問題。

Wall-WM 的設計很巧妙。它的視覺模塊和動作模塊不是平起平坐的，而是單向耦合：

動作模塊只能讀取視覺模塊的信息，但不能反向干擾它。就像你看書的時候可以記筆記，但記筆記不會把書上的字改掉。

這樣一來，在大規模訓練時，模型既能保留原有的視覺理解能力，又能讓動作能力持續增長。工程師也不需要提前「猜」動作該怎么編碼，因為模型自己會學出來。

但解決了「學新不忘舊」，Wall-WM 還要解決另一個老問題：機器人身上有好幾個攝像頭，它怎么知道它們拍到的其實是同一個東西？

大多數機器人身上不止一個攝像頭，比如頭頂一個、左手腕一個、右手腕一個。問題是，它怎么知道這三個攝像頭拍到的畫面是對應同一個物體的？

傳統做法是讓模型自己去學對應關系。

但效果往往不好：模型會偷懶，把跨視角注意力當成一個通用特征混合器，而不是真正去理解空間幾何。

因此，Wall-WM 引入了兩個機制：視錐掩碼和管狀掩碼。

視錐掩碼從物理層面告訴模型：這兩個攝像頭的畫面在空間上根本不可能對應，別費勁去學它們的關系。

管狀掩碼則反過來「強迫」模型去學那些真正應該對應的區域，它會故意遮擋一個攝像頭里的某塊區域，逼模型從其他攝像頭找到相同的內容。

一個通俗的理解：普通 AI 看東西是「二維拼圖」，每一張畫面都是獨立的平面。

而 Wall-WM 看東西是「三維積木」，它知道不同角度的畫面拼起來是一個立體的物體。哪怕某個角度被遮擋了，它也能「腦補」出物體的真實位置。

看懂空間、理解事件，Wall-WM 在「想什么」上已經比傳統模型前進了一大步。但機器人光會想還不夠，它還得想得快，畢竟真實世界不等人。

機器人在做復雜任務時，往往需要「思維鏈」（CoT），也就是在腦子里先推理一遍再行動。

但傳統 CoT 是一步一步推理的，想完第一步，才能想第二步，非常慢。

Wall-WM 的做法是：

底層只跑一次，高層像階梯一樣并行展開。而且最關鍵的是，它產出的 CoT 仍然是離散可讀的文本，你隨時可以打開看模型是怎么推理的，可解釋性和實時性第一次不用二選一。

Wall-WM 的發布，對行業和開發者來說意味著什么？

從理解事件到看懂空間，再到快速決策，Wall-WM 在底層已經把「機械式」的思考方式改寫了一遍。

不過，Wall-WM 還有一個討巧的設計：同一套「大腦」，可以靈活適配不同場景。

它有兩種模式。一種叫「事件模式」，適合已經有上層規劃器的場景，比如你給機器人一個「把杯子拿過來」的任務，它自己就能拆成伸手、抓取、提起、移動、放置等一串事件，一次輸出一個完整的動作單元，非常貼合事件邊界。

另一種叫「統一模式」，適合沒有外部規劃器、需要端到端實時控制的場景。模型自己邊推理邊執行，保持固定的控制頻率。

這兩種模式可以按需切換，不用重新訓練。

輕量級的家庭小機器人可以跑在低算力模式，工業機械臂可以切換到大算力模式。同一套代碼思路，小到掃地機器人，大到工廠產線，都能適配。

對于開發者來說，再也不用為不同設備維護多套模型，開發成本也在大幅降低。

目前，具身智能行業有一個共識正在形成：

世界模型，將成為機器人領域的下一個基礎設施，但大多數都還停留在論文或者內部系統階段。

而自變量機器人是把「事件級預測能力」的世界模型完整展示出來的。

它不是放出一個 demo 或者一個 API，而是通過技術報告詳細公開了整套思路、模型設計、訓練方案和實驗數據。

而實驗結果，也驗證了「事件級預測」這條路線的有效性。

在真機 Core15 L1 基準測試中，Wall-WM 的平均任務完成分數明顯領先 π0.5 與 DreamZero 等同類模型。

在基礎任務、推理任務、靈巧操作以及泛化場景下，均展現出了更強的完成能力，也是目前抽象指令設定下完成度最高的 L1 模型之一。

這意味著，Wall-WM 提升的已經不只是機械執行能力，而是機器人對于復雜任務與抽象目標的理解能力。

與此同時，在具身視頻生成（Embodied Video Generation）測試中，相比 Wan2.1、Wan2.2 等傳統視頻生成模型，Wall-WM 在 Motion Quality（動作質量）、Semantic Consistency（語義一致性）以及 Physical Plausibility（物理合理性）等多個具身相關維度上，均實現了明顯領先。