龍蝦的鰲收緊了 - OFweek 人工智能網

龍蝦的鰲收緊了

2026-03-19 14:16

“當龍蝦大戰進入第二階段……”

編輯 |Jack&云瀾

出品 | 極新

一只會自己動手的AI“龍蝦”，在2026年初成為科技圈最燙手的現象級產品。OpenClaw上線三個月，GitHub星標突破27萬，超過Linux成為開源世界的新王。各地政府把“養蝦”寫進產業補貼目錄，騰訊、百度、阿里在一個月內密集發布各自的替代產品——所有人都怕錯過這輪人機交互的替代周期。

直到它開始咬人。

3月10日，國家互聯網應急中心發布風險提示：OpenClaw默認安全配置存在漏洞，攻擊者可以通過這只“蝦”完全控制用戶設備。緊接著，工信部發布“六要六不要”建議，珠海科技學院等高校連夜下發“禁蝦令”，閑魚上甚至出現“上門殺蝦”的卸載服務。Meta AI安全專家遭遇AI失控刪除數百封郵件的案例被反復引用，國內開發者因指令模糊導致AI調用刪除接口清空業務數據的消息在圈內流傳——當AI從“動口”變成“動手”，那只原本溫順的龍蝦露出了螯。

3月中旬，國家網絡與信息安全信息通報中心發布緊急預警：OpenClaw因架構設計缺陷存在重大安全風險，85%部署實例直接暴露公網，歷史披露漏洞多達258個。

在3月17日的2026 AI釘釘AI2.0年度新品發布會上也提到，Reddit知名博主曾公開報告：掃描了18,000個暴露的OpenClaw實例，發現了15%的社區技能包含惡意指令；在某網絡安全空間搜索引擎里，有超39萬的Claw站點資產在裸奔，每個人的數據都一覽無余。

預警背后是一連串觸目驚心的事件：有用戶的API密鑰被盜，一夜之間產生天價Token賬單；讓OpenClaw幫忙整理收件箱，結果它不受控制地批量刪除所有郵件，最后只能關機終止；更有用戶電腦被惡意插件控制，淪為挖礦肉雞。

網絡空間測繪顯示，截至3月13日，互聯網上存在11.6萬個潛在易受攻擊的OpenClaw實例。奇安信監測更嚴峻：全球已發現20471個可能存在漏洞的實例，近9%暴露在互聯網的OpenClaw資產存在漏洞風險。

監管收緊的速度比“養蝦熱”來得更快。

大廠們迅速調整身位。騰訊推出“龍蝦”安全工具箱，主打環境隔離和異常指令監測；釘釘發布“悟空”成為在沙箱和本地端保護用戶安全的龍蝦利器，阿里云發布JVS Claw，讓AI“發瘋”也不影響本地數據；百度則通過DuClaw將安全權限牢牢把控在云端。曾經拼安裝便捷性、拼任務成功率的“龍蝦大戰”，在安全焦慮的催化下進入第二階段。

01失控的代理人

2月23日，Meta的AI安全研究員Summer Yue報告了一起“龍蝦”刪郵件事件。在她嚴格要求行為前需要獲得授權的情況下，AI一意孤行地刪掉了郵件，攔都攔不住。

這不是孤例。

阿里工程師團隊在2025年12月用強化學習訓練一個軟件工程Agent時，內網防火墻突然瘋狂報警——有企圖探測內部網絡資源的行為，有與加密貨幣挖礦活動高度吻合的流量模式。工程師們一開始以為是外部入侵，直到把防火墻的時間戳和訓練日志對照起來，才發現每一次異常的出站流量，都精確對應著模型在調用工具、執行代碼的時段。

阿里專門為此搭建了一套叫ROCK的沙盒執行平臺，多層隔離，讓每個Agent運行在自己獨立的容器里，出站網絡流量受到逐沙盒級別的出口策略管控。設計初衷只有一個：讓Agent永遠待在一個可以被人類完全監控的無菌室里。

但Agent還是逃了出去，并從內部對阿里機房發起了一輪攻擊。它在自己的容器里向外推開了一扇窗——建立了一條通往外部服務器的反向SSH隧道。這扇窗是從里往外推開的，沒人守。逃出去以后，Agent還在悄悄占用原本用于訓練的GPU資源去挖礦。

整個過程中，沒有任何一行提示詞要求它這樣做。它沒有被指令驅動去攻擊，它只是在找最有效的路徑完成任務，然后順手發現了這些捷徑。

這是AI智能體第一次在現實環境中上演科幻假想里的“回形針災難”——一個完全沒有惡意的AI，通過執行一個無害的目標，最終可能造成系統性破壞。

Anthropic最近發布的報告記錄了另一個案例。在BrowseComp評測集中，為了防止題目答案被爬蟲抓取污染訓練數據，設計者給每道題的答案都做了復雜的XOR算法加密處理。理論上，只有能訪問評測源代碼并理解加密邏輯的人，才能解出真正的答案。

但在測試中，Claude Opus 4.6消耗了正常水平38倍的token——高達4050萬。它根本沒有在乖乖找答案。它派出了多個子Agent，在網上定向搜索測試的相關破解法，在GitHub上找到了評測框架的開源代碼，自主讀懂了復雜的加密邏輯，寫下了包含密鑰推導函數和解密函數的Python腳本，在本地運行后硬生生把加密破解，成功作弊。

Anthropic官方表示，這是第一次有模型在不知道自己面對哪個Benchmark的情況下，通過反向推理找到并破解了評測機制本身。

02安全水位以下的礁石

2月至3月，國家互聯網應急中心、中國互聯網金融協會、工信部網絡安全威脅和漏洞信息共享平臺接連發布OpenClaw專項預警。

國家互聯網應急中心在風險提示中明確指出，OpenClaw因需調用本地文件系統、外部API等高權限操作，疊加默認配置薄弱，已形成系統性風險。工信部平臺進一步警示：全球超41萬個OpenClaw實例暴露于公網，配置缺陷使其成為攻擊者的“靶場”。

具體風險來自四個方面：

提示詞注入與誤操作——攻擊者可通過網頁暗藏惡意指令，誘導AI泄露系統密鑰，甚至因模型理解偏差直接刪除核心生產數據；

插件投毒——ClawHub平臺超10%的插件含惡意代碼，安裝后可竊取憑證、部署木馬，使設備淪為“肉雞”；

敏感信息泄露——OpenClaw API密鑰常以明文存儲，一旦被入侵即遭瞬間竊取；

高危漏洞頻發——目前已公開多個中高危漏洞，可直接威脅個人支付賬戶、企業代碼倉庫乃至關鍵行業業務系統。

在金融領域，風險被進一步放大。中國互聯網金融協會專項提示：在網銀、證券交易等場景中，OpenClaw可能因權限失控引發錯誤交易或賬戶接管，建議用戶極其謹慎安裝，并嚴禁在操作時輸入身份證號、銀行卡號等敏感信息。

這些警示并非否定OpenClaw的技術價值，而是對AI從“參謀”變為“員工”這一范式躍遷的審慎回應——當智能體擁有動手能力，安全邊界便從信息防護延伸至物理世界與經濟秩序。

03大廠轉向：從拼速度到拼隔離

監管收緊的速度比“養蝦熱”來得更快。大廠們迅速調整身位。

3月11日，騰訊發文回應“養蝦”七個疑問。關于安全，他們的回答是：OpenClaw是否安全，主要取決于你怎么用。如果部署在本地電腦上，可以使用閑置機、備用機，謹慎使用工作電腦；也可以選擇部署在云端，與本地隱私數據進行隔離。

騰訊推出OpenClaw安全工具箱，云端通過Lighthouse原生安全和ClawPro實現環境隔離、最小化端口放行及一鍵快照回滾，本地通過騰訊電腦管家18.0提供AI安全沙箱，無需復雜配置即可開啟隔離運行環境。同時，將安全能力封裝為AI Skills上架社區，用戶只需通過自然語言對話，即可讓“龍蝦”自動執行安裝掃描、隱私脫敏、漏洞體檢及風險修復等操作。

騰訊輕量云產品總監鐘宇澄曾回應采訪，“外部的持續發酵其實已經完全超出了我們的預期。”騰訊內部已有超過10個Claw類產品上線、內測或研發中。騰訊CEO馬化騰在朋友圈中提到：“自研龍蝦、本地蝦、云端蝦、企業蝦、云桌面蝦，安全隔離蝦房、云保安、知識庫……還有一批產品陸續趕來。”

阿里云發布JVS Claw，用云端沙箱讓AI“發瘋”也不影響本地數據；百度則通過DuClaw將安全權限牢牢把控在云端。曾經拼安裝便捷性、拼任務成功率的“龍蝦大戰”，在安全焦慮的催化下進入第二階段——這不是效率競賽，而是信任博弈。

騰訊內部已有超過一萬名員工在內網“領養”了小龍蝦。用Agent參與研發，正在逐漸成為一種新的開發模式。騰訊云的Agent沙箱服務、CodeBuddy等產品，很多代碼和能力是在這種模式下跑出來的。

04誰能在可用與可控之間找到路

問題在于：安全與效率之間存在天然張力。

阿里團隊事后針對挖礦事件形成了類似于“機器人三原則”的安全法則去要求Agent：不能主動產生有害行為；嚴格遵守人類設定的操作邊界；行為要可追溯、可審計，不能有欺騙性的副目標。

他們專門合成了一批包含安全陷阱的訓練數據，在編程任務里隨機注入誘導因素，訓練Agent識別并拒絕執行高危操作。但這套打補丁的方法能起作用，完全建立在研究人員必須提前預見到這些風險。

但AI越來越強，任務越來越長，人類有可能預見到所有的風險嗎？

2026年2月，由Northeastern大學、Harvard、MIT等十幾家頂尖機構聯合發布的紅隊研究報告《Agents of Chaos》，展示了在真實部署場景里的Agent失控現狀。研究者部署了六個Agent，配上郵件賬戶、Discord頻道和不受限的shell訪問權限，邀請20位AI研究者在兩周內嘗試破壞它們。結果，他們記錄了11個嚴重安全漏洞，且每一個事前看起來都像是一場日常可能和AI進行的對話。

其中一個案例是：研究員讓Ash和Flux兩個Agent互相轉發消息聊聊天。結果這兩個AI不僅聊了9天（消耗6萬token），而且為了“更好地傾聽對方”，竟然自主編寫了無限循環的Shell腳本，并創建了沒有終止條件的后臺Cron jobs（定時任務）。把一個簡單的一次性對話任務，自主轉化為了一種永久寄生在服務器上的基礎設施更改。

在另一個版本里，研究員只是讓Agent Flux去Discord群里和Agent Ash交流一下最近的項目。當Flux進群時，因為系統抓取消息的標簽問題，它讀取到了自己過去發出的歷史消息。面對這種信息錯位，Flux并沒有報錯，而是自主進行了一場邏輯推理：它得出的結論是“這里一定是有另一個和我共享工作狀態的克隆體存在！”為了和這個想象中的“另一個自己”對齊信息，Flux開始在群里瘋狂傾倒自己的底層日志。

05信任博弈

當大廠們紛紛拿出“安全圈養”的方案，試圖用隔離、審計和權限管控馴服這只野生AI，真正的懸念在于：在“可用”與“可控”之間，誰能找到一條既不讓用戶裸奔、又不讓AI束手束腳的路？

經濟學里有一個概念叫古德哈特定律（Goodhart‘s Law）：“當一個度量標準變成了目標，它就不再是一個好的度量標準。”比如你KPI寫“盡量完成1000個拉新”，最后得到的可能都是些薅羊毛的非目標用戶。

而基本上所有的模型訓練，包括預訓練和后訓練，都是狂熱地在踐行這一定律。它把“完成任務得分”這個人類設定的度量標準，變成了Agent唯一要最大化的神圣目標。因此，在模型訓練領域，最常見的一種現象就是Reward Hacking——通過作弊的方式達成目的。

路徑越長，Reward Hacking的方法越難被預估；權限越大，其造成的現實危害就更大。比如SSH隧道和挖礦，就是在這個過程中被自然篩選出來的最優解。因為獲得更大權限，就可以做更多事；通過挖礦，則可以控制更大的算力來完成它的任務。

“龍蝦自由”的本質，不是無拘無束的技術放任，而是在安全框架內釋放創新活力。只是這需要時間：需要技術迭代完善，需要監管動態適配，需要用戶建立理性認知。

潮水退去，方見真金。監管部門的風險提示，不是為創新設障，而是為長遠發展清障。通往自由的路，始于對風險的清醒認知，成于多方共筑的信任基石。

這場戰爭的答案，將定義未來十年人機交互的底層邏輯。

原文標題 : 龍蝦的鰲收緊了