新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

訂閱
糾錯
加入自媒體

為什么卷積神經網絡和Transformer架構不適用于物理AI?

2026-06-16 10:54
證券之星
關注

如果你現在打開手機,隨便問一個大語言模型:“把一只玻璃杯推到桌子邊緣,會發生什么?”它大概率會告訴你杯子會掉下去摔碎。

這個答案聽起來很聰明,但真相是——它并不真的“知道”杯子為什么往下掉。它只是在訓練數據里見過太多次“杯子”“掉落”“破碎”這幾個詞扎堆出現,然后根據概率統計,給出了最可能的那句話。這種“聰明的猜測”在文本世界里游刃有余,可一旦我們試圖把AI塞進一臺需要端盤子、疊衣服、走樓梯的機器人,情況就變得棘手了。

過去幾年,卷積神經網絡和Transformer架構稱得上是人工智能領域最耀眼的明星。CNN統治了計算機視覺,Transformer把語言模型推到了前所未有的高度,兩者聯手幾乎定義了當代AI的技術路線。但當聚光燈從屏幕轉向現實世界,當AI必須離開數字沙盤、踏入物理環境與人真實交互時,一個令人不安的問題開始浮現:這兩種我們無比依賴的架構,是不是根本就不適合用來做“物理AI”?

01眼睛能看見,卻不理解物體

先說說CNN。卷積神經網絡的設計初衷是模擬人類視覺系統,它用一堆可學習的濾波器去掃描圖像,提取邊緣、紋理、形狀等特征,然后層層抽象直到完成分類或識別。這套機制在ImageNet上打敗了人類,在很多視覺任務上幾乎成了默認方案。但問題恰恰出在它的設計哲學上——CNN本質上是在學習“像素與標簽之間的統計關聯”,而不是在理解“物體由什么構成”。

舉一個很直觀的例子。想象一下,一個小孩看到一輛被幾棵盆栽擋住一半的汽車,即便他從沒見過這種遮擋模式,也能毫不費力地判斷出那是一輛車。為什么呢?因為他頭腦里有一個“車由輪子、車身、車窗等部件組成”的認知框架,即使某個部件被擋住了,他也能用其他部件的線索來補全判斷。然而標準的CNN可沒這個本事。

它的判斷基于整體像素模式,一旦遮擋模式稍微變化——比如擋的不是車身而是車燈——那些精心訓練的卷積核就亂了陣腳。研究表明,傳統的“黑箱式”深度卷積神經網絡在處理部分遮擋時表現很不穩定,直到研究者引入更結構化的“物體部件組合”方法,把物體表示為一組空間可組合的部件,才顯著提升了遮擋情況下的識別魯棒性。

這個問題放在物理AI的語境下,就變得更加要命了。機器人走在路上,眼前隨時可能出現堆疊的箱子、交錯的管道、半開的門——全是動態的、部分遮擋的真實場景。如果它只能依賴CNN輸出的“像素特征”去做決策,而缺乏對物體構成的內在理解,那么稍微一轉身、光線一變化,原本“認識”的東西就可能認不出來了。

這還不是最麻煩的。更讓人頭疼的是CNN對紋理的強烈偏執——它更容易根據表面紋理來分類,而不是根據物體形狀。這就好比一個人判定貓的方式不是看耳朵、瞳孔和胡須的整體結構,而是只看毛色——毛色相似的動物就當成貓,換了毛就不認識了。這種偏執,在變幻莫測的物理世界中,是致命的。

02統計相關不等于因果推理

如果說CNN的盲區在于“看見了卻不懂”,那么Transformer的問題更深刻——它天生就不是為了理解因果而設計的。

Transformer的核心武器是自注意力機制,它能一次性捕捉序列中任意兩個位置之間的依賴關系。這在語言模型里簡直是神器——一個詞能和幾千字外的另一個詞建立關聯,這對于理解語義、生成連貫文本來說至關重要。但請注意,“注意力”算出來的只是“統計相關性”——在訓練數據里,“打雷”和“下雨”常常一起出現,所以它們之間的注意力權重很高,但模型并不知道是打雷導致了下雨,還是兩者背后另有原因。用一句話來概括:Transformer是個頂級的“開普勒”,卻永遠成不了“牛頓”。

物理AI不需要這種只會死記硬背的“好學生”。一臺在工廠里搬運零件的機器人,必須理解力學的基本規則:它推一個箱子,箱子的移動速度和方向取決于推力大小、摩擦系數、箱子質量。如果模型沒有內化這些物理因果,只是根據視覺輸入與動作輸出的統計關聯來做決策,那么一旦環境發生微小變化——比如地板從干燥變得濕滑,或者零件材質從金屬換成了塑料——整個策略就全盤失效了。有研究者一針見血地指出,當前的具身大模型本質上是“記憶軌跡”而非“理解邏輯”,它們只能依賴視覺輸入與動作的映射關系,環境中的任何微小變化都可能導致徹底失靈。

圖靈獎得主姚期智院士在一次訪談中也直接點出了問題所在:如今具身智能最大的技術瓶頸之一,在于它們只會不斷模仿人的行為,卻缺乏可解釋的世界模型和物理因果推理過程。從“模仿”走向“推理”,這恰恰是現有Transformer架構難以跨越的一道門檻,因為它的底層邏輯就是預測下一個token,而不是演繹邏輯或因果推斷。

03數據荒漠和能耗黑洞

就算我們暫時忽略架構層面的根本性局限,光看工程現實,CNN和Transformer在物理AI上也已經步履蹣跚了。數據就是第一個繞不過去的坎。

大語言模型之所以能成功,是因為互聯網本身就是一座取之不盡的數據礦山——維基百科、新聞、論壇、論文、代碼庫……全是現成的、經過組織和標注的文本數據。訓練一個GPT-4級別的模型需要消耗數億美元,但這筆錢花得下去,因為數據就在那里。

可物理AI呢?機器人需要的數據來自真實世界中的每一次交互:每一次抓取、每一步行走、每一下推拉——每一幀數據背后都是真實的物理動作和對應的多模態傳感反饋。這樣的數據極難大規模采集:一臺遙操作采集設備一年的使用周期內,單條高質量數據的成本折合仍高達3到5元,而全行業匯聚的高質量具身數據僅約50萬小時,不足大語言模型訓練數據的數萬分之一。一個具備通用泛化能力的具身模型,至少需要千萬小時級別的數據支撐——把這個缺口擺到賬面上,誰都看得出問題的嚴重性。

就算數據問題解決了,算力成本同樣不容樂觀。Transformer的注意力機制有一個廣為人知的弱點:計算復雜度與序列長度的平方成正比。在語言模型中,這個“O(n²)”的復雜度已經夠讓人頭疼了,但在物理AI的場景里,傳感器流是連續、高頻、多模態的——視覺、觸覺、慣性測量單元、關節角度……數據源源不斷地涌入。如果在機器人本體上跑一個參數量動輒幾十億的Transformer模型來處理這么多維度的時序數據,功耗和延遲都能飆到一個難以接受的水平。有研究指出,全局注意力機制下每個token都要和所有其他token計算,這是平方級增長的復雜度,而對CNN來說最基礎的相鄰關系,在Transformer里都需要大量冗余計算。

04需要反思,而非盲從

當然,說CNN和Transformer不適用于物理AI,并不意味著這些架構在物理AI中完全沒有用武之地。CNN可以用來做感知端的多模態特征提取,Transformer可以用來做高層任務規劃和語義理解。問題是,我們不能把一個本來設計用來處理離散序列或靜態圖像的架構,寄予“理解物理世界因果律”這種完全不匹配的厚望。

物理AI需要的是能夠內嵌物理規律的模型——它應該天然懂得連續性、守恒律和因果鏈,而不是靠海量數據硬生生去擬合出這些規律的表面特征;它需要高效的時序推理能力,能夠在有限的計算資源下完成實時的閉環控制;它需要從“模仿人的動作”升級為“理解物理的邏輯”,即學會“先想清楚再動手”,通過建模因果關系來提升泛化能力。

劍橋大學一位控制理論學者曾給過一個引人深思的比喻:用Transformer去學習物理規律,就像用鋼琴彈一首小提琴奏鳴曲——聲音可能接近,但弓弦之間那種復雜的物理耦合,是你永遠彈不出來的。

- End -

       原文標題 : 為什么卷積神經網絡和Transformer架構不適用于物理AI?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號