新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

訂閱
糾錯
加入自媒體

“事件級”世界模型WALL-WM:機器人的大腦,終于學會“抓重點”了

2026-06-01 11:26
星河頻率
關注

作者|蘇涵

你每天早上過馬路,需要同時算清楚對面那輛車的車速、距離和你走完斑馬線所需的 3.5 秒嗎?

當然不需要。你只會快速看一眼,心里默默判斷一個關鍵問題:「車會不會撞到我?」然后決定是走還是停。

整個過程不到一秒,消耗的能量微乎其微。但今天的機器人,幾乎都在做前一種事。

它們被設定為按固定頻率來預測世界的下一秒,每秒 30 次、50 次,哪怕明知道接下來的 0.5 秒什么都沒發生,它也必須算完。

這就像你每天早上出門前,都要完整計算一遍過馬路的 300 個步驟才敢邁出第一步。

累不累?當然累。

關鍵是,大部分計算都是白費的。這就是當前機器人「時靈時不靈」的根本原因之一:

它們太聽話了,聽話到對每一幀、每一秒都平均用力,從不問自己「什么事值得想,什么事不用想」。

5 月 29 日,自變量機器人推出首個具備「事件級預測能力」的世界模型:Wall-WM。

它的核心就是跳出「按時間均勻采樣」的舊范式,模型不再機械地預測每一幀,而是判斷哪些瞬間真正重要。

換句話說,Wall-WM 讓機器人終于學會了「抓重點」。

然而,這個世界模型的推出,到底意味著什么?

為什么「抓重點」這種人類與生俱來的能力,放到機器人身上就成了底層技術革新?要回答這些問題,得先從機器人「大腦」的工作方式說起。

從機械模仿到真正理解,Wall-WM 是如何做到的?

目前行業主流的機器人「大腦」叫 VLA(視覺-語言-動作)。聽名字就知道,一個負責「看」,一個負責「聽懂人話」,一個負責「動手」。

聽起來挺合理,但問題在于,這三個模塊是串聯的:視覺模塊把看到的東西傳給語言模塊,語言模塊理解后再傳給動作模塊。每傳一次,信息就打一次折扣。

這就是為什么很多機器人看起來很「笨」。不是因為它沒看到,而是因為它看到的信息在傳到「動手」模塊時,已經丟失了一大半。那有沒有什么辦法可以改進?

自變量機器人給出的答案是,通過 Wall-WM 這一世界模型,先換掉它思考的時間單位。

傳統模型按固定頻率預測未來,每秒 30 次、50 次,每一幀都用力。哪怕接下來的 0.5 秒什么都沒發生,它也必須算完,這叫「幀級預測」。

但自變量機器人換了一套邏輯:以「事件」為單位來預測。

什么是事件?伸手、抓取、提起、移動、放置,這些在一段時間內連貫、有明確意義的動作片段,就是事件。

模型只在世界發生「重要變化」時才重新調整預測。

比如「杯子開始滑落」是一個事件,「手碰到了杯子」是另一個事件。其他時間,它不需要每秒思考 30 次。

更重要的是,它學到的不是「第 10-20 幀我要執行指令 X」,而是在此事件下,物理世界將如何演化、我應當如何執行。

但這里有一個隱藏的難題:

如果讓機器人在學新動作的同時,把原來好不容易學會的視覺能力給忘掉了,怎么辦?Wall-WM 在設計上專門考慮了這個「學新不忘舊」的問題。

Wall-WM 的設計很巧妙。它的視覺模塊和動作模塊不是平起平坐的,而是單向耦合:

動作模塊只能讀取視覺模塊的信息,但不能反向干擾它。就像你看書的時候可以記筆記,但記筆記不會把書上的字改掉。

這樣一來,在大規模訓練時,模型既能保留原有的視覺理解能力,又能讓動作能力持續增長。工程師也不需要提前「猜」動作該怎么編碼,因為模型自己會學出來。

但解決了「學新不忘舊」,Wall-WM 還要解決另一個老問題:機器人身上有好幾個攝像頭,它怎么知道它們拍到的其實是同一個東西?

大多數機器人身上不止一個攝像頭,比如頭頂一個、左手腕一個、右手腕一個。問題是,它怎么知道這三個攝像頭拍到的畫面是對應同一個物體的?

傳統做法是讓模型自己去學對應關系。

但效果往往不好:模型會偷懶,把跨視角注意力當成一個通用特征混合器,而不是真正去理解空間幾何。

因此,Wall-WM 引入了兩個機制:視錐掩碼和管狀掩碼。

視錐掩碼從物理層面告訴模型:這兩個攝像頭的畫面在空間上根本不可能對應,別費勁去學它們的關系。

管狀掩碼則反過來「強迫」模型去學那些真正應該對應的區域,它會故意遮擋一個攝像頭里的某塊區域,逼模型從其他攝像頭找到相同的內容。

一個通俗的理解:普通 AI 看東西是「二維拼圖」,每一張畫面都是獨立的平面。

而 Wall-WM 看東西是「三維積木」,它知道不同角度的畫面拼起來是一個立體的物體。哪怕某個角度被遮擋了,它也能「腦補」出物體的真實位置。

看懂空間、理解事件,Wall-WM 在「想什么」上已經比傳統模型前進了一大步。但機器人光會想還不夠,它還得想得快,畢竟真實世界不等人。

機器人在做復雜任務時,往往需要「思維鏈」(CoT),也就是在腦子里先推理一遍再行動。

但傳統 CoT 是一步一步推理的,想完第一步,才能想第二步,非常慢。

Wall-WM 的做法是:

底層只跑一次,高層像階梯一樣并行展開。而且最關鍵的是,它產出的 CoT 仍然是離散可讀的文本,你隨時可以打開看模型是怎么推理的,可解釋性和實時性第一次不用二選一。

Wall-WM 的發布,對行業和開發者來說意味著什么?

從理解事件到看懂空間,再到快速決策,Wall-WM 在底層已經把「機械式」的思考方式改寫了一遍。

不過,Wall-WM 還有一個討巧的設計:同一套「大腦」,可以靈活適配不同場景。

它有兩種模式。一種叫「事件模式」,適合已經有上層規劃器的場景,比如你給機器人一個「把杯子拿過來」的任務,它自己就能拆成伸手、抓取、提起、移動、放置等一串事件,一次輸出一個完整的動作單元,非常貼合事件邊界。

另一種叫「統一模式」,適合沒有外部規劃器、需要端到端實時控制的場景。模型自己邊推理邊執行,保持固定的控制頻率。

這兩種模式可以按需切換,不用重新訓練。

輕量級的家庭小機器人可以跑在低算力模式,工業機械臂可以切換到大算力模式。同一套代碼思路,小到掃地機器人,大到工廠產線,都能適配。

對于開發者來說,再也不用為不同設備維護多套模型,開發成本也在大幅降低。

目前,具身智能行業有一個共識正在形成:

世界模型,將成為機器人領域的下一個基礎設施,但大多數都還停留在論文或者內部系統階段。

而自變量機器人是把「事件級預測能力」的世界模型完整展示出來的。

它不是放出一個 demo 或者一個 API,而是通過技術報告詳細公開了整套思路、模型設計、訓練方案和實驗數據。

而實驗結果,也驗證了「事件級預測」這條路線的有效性。

在真機 Core15 L1 基準測試中,Wall-WM 的平均任務完成分數明顯領先 π0.5 與 DreamZero 等同類模型。

在基礎任務、推理任務、靈巧操作以及泛化場景下,均展現出了更強的完成能力,也是目前抽象指令設定下完成度最高的 L1 模型之一。

這意味著,Wall-WM 提升的已經不只是機械執行能力,而是機器人對于復雜任務與抽象目標的理解能力。

與此同時,在具身視頻生成(Embodied Video Generation)測試中,相比 Wan2.1、Wan2.2 等傳統視頻生成模型,Wall-WM 在 Motion Quality(動作質量)、Semantic Consistency(語義一致性)以及 Physical Plausibility(物理合理性)等多個具身相關維度上,均實現了明顯領先。

這背后,本質上就是因為它不再只是逐幀生成畫面,而是在預測「事件」如何在真實物理世界中演化。

此外,在 3D Awareness(CO3Dv2)測試中,Wall-WM 在 Point Error 與 Depth Error 兩項空間誤差指標上,也優于 WAN2.1-14B、Open-Sora 2.0、V-JEPA、DINOv2 等模型。

但相比性能提升,更重要的是,它改變了機器人理解世界的方式。

過去的機器人,對每一幀都在用力;而現在,它開始學會像人一樣,知道什么值得思考,什么不值得浪費算力。

而 Wall-WM 真正的價值,或許并不在于它是又一個跑分更高的 VLA 模型,而在于它把如何在保留多模態視覺先驗與空間幾何理解的同時,讓模型真正學會預測物理世界這個具身基礎模型的根本問題,給出了一套自洽的工程化答案。

在這里,「事件」不再只是一個動作標注粒度,而開始成為世界模型真正的思考單位。

       原文標題 : “事件級”世界模型WALL-WM:機器人的大腦,終于學會“抓重點”了

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號