成人免费午夜精品一区二区-亚洲视频在线观看久久-国产原创自拍看在线视频-这里只有精品自拍偷拍亚洲色图-亚洲变态另类色图天堂网-国产欧美日韩亚洲一区-国产精品自拍35页-男人插入女人下面的真实视频-蜜桃臀一区二区三区精品视频

訂閱
糾錯
加入自媒體

97.6%接近滿分!Claude最強模型發(fā)布,但不敢給用戶用:太危險

2026-04-09 09:48
雷科技
關注

地球最強模型,什么時候能用?

昨天夜里,Anthropic 最新發(fā)布的 Claude Mythos(神話)預覽版,又讓整個 AI 圈炸鍋了。

Claude Mythos 預覽版,官方自稱「迄今為止最強大的 AI 模型」,一個全新能力層級,甚至大幅甩開了之前自家最強的 Claude Opus 4.6。

至少從目前展現(xiàn)出的數據和結果來看,這不是營銷話術,是真正質的飛躍。首先在幾乎所有公開基準測試上,Claude Mythos 預覽版都是第一,更為驚艷的是它的進步幅度:

面向軟件工程的 SWE-bench Verified 從 Opus 4.6 的 80.8% 暴漲到 93.9%,SWE-bench Pro 從 53.4% 沖到 77.8%;面向高難度數學推理的 USAMO 2026,更是從從 42.3% 直接飆到 97.6%——幾乎滿分。

HFU_voPW4AEk_Bi.jpg

圖片來源:Anthropic

可以說是目前的地球最強模型。

這還只是一些「小」例子,更驚艷我們的是,Anthropic 在過去幾周進行了實際測試,Mythos 預覽版在主流操作系統(tǒng)和主流瀏覽器中自主發(fā)現(xiàn)了數千個高危零日漏洞(zero-day),包括 Linux 內核、OpenBSD、Firefox 瀏覽器、FFmpeg 等核心組件。

很多漏洞連人類安全團隊審了十幾、二十年都沒發(fā)現(xiàn),比如在以安全著稱的 OpenBSD 里,Mythos 預覽版就找到了一個藏了 27 年沒被發(fā)現(xiàn)的遠程崩潰漏洞。Anthropic 官方甚至很肯定地表示,Mythos 預覽版在網絡安全能力上遠超任何其他 AI 模型。

這不是一個「更好用的 Claude」,它寫代碼、做推理、搞安全,全都達到了前所未有的自主性和深度,開發(fā)者們本來期待著「終于能徹底解放生產力了」,但結果:

Anthropic 直接把門關上了。

是的,至少目前,Claude Mythos 預覽版并不對公眾開放。按照官方說法,Mythos 預覽版目前僅用于「防御性網絡安全」,并且僅 12 家合作伙伴(AWS、蘋果、博通、思科、CrowdStrike、Google、摩根大通、Linux 基金會、微軟、英偉達、Palo Alto Networks)以及 40 多個構建或維護關鍵軟件基礎設施的組織,擁有 Mythos 預覽版的訪問和使用權限。

maxresdefault.jpg

圖片來源:Anthropic

這就是 Anthropic 同時推出的 Project Glasswing(玻璃翼計劃)。Anthropic 甚至還砸了 1 億美元的額度,支持 40 多家額外組織使用 Mythos 預覽版維護開源生態(tài)的「地基」。

但為什么一個「最強模型」要藏著掖著,不給人用?

武器太強,需要過渡

首先是明確的是,Claude Mythos 預覽版,或者類似水平的超級大模型一定會開放公眾使用。Anthropic 官方寫得非常直白:

「雖然我們目前沒有計劃向公眾開放 Claude Mythos 預覽版,但我們的最終目標是讓用戶能夠安全地大規(guī)模部署 Mythos 級模型——這不僅是為了網絡安全,也是為了這些功能強大的模型將帶來的無數其他好處!

就像官方博客字里行間說的,這個模型「太危險」。

去年底,Google Threat Intelligence Group(GTIG)就發(fā)現(xiàn)了 PromptFlux 和 PromptSteal 這兩個真實樣本:它們會在運行時直接連接商業(yè)大模型(比如 Gemini API)時,動態(tài)生成惡意腳本、實時混淆自身代碼,還能根據目標環(huán)境「現(xiàn)場」創(chuàng)建新功能,完全繞過傳統(tǒng)簽名檢測進行攻擊。

這不是孤例。根據市場研究機構 SQmagazine 的報告,全球報道的 AI 驅動網絡攻擊數量增長了 47%,預計超過 2800 萬起。

回過頭來,Mythos 預覽版尋找漏洞的能力已經初見端倪。尤其對比之前 Claude 最強模型 Opus 4.6 自主發(fā)現(xiàn)并利用漏洞的成功率接近 0%,Mythos 預覽版的表現(xiàn)可以堪稱逆天。

以 Mozilla Firefox 147 JavaScript 引擎中發(fā)現(xiàn)的漏洞(已修復)為例,Claude Opus 4.6 在利用漏洞上嘗試了數百次,只成功了 2 次;而 Claude Mythos 預覽版則在同樣測試中成功利用漏洞 181 次。

0408-Claude Mythos Preview-600.jpg

圖片來源:Anthropic

另外從測試報告來看,在過去幾周的內部紅隊測試里,Mythos 預覽版展現(xiàn)出的進攻能力,已經遠超人類頂尖安全專家。它不只是「能找漏洞」,而是能自主發(fā)現(xiàn)、鏈式利用、數千個高危零日漏洞。

眾所周知,黑客也分白帽和黑帽,白帽黑客發(fā)現(xiàn)安全漏洞通常會提醒項目管理者,在開源項目中甚至主動修補。但黑帽黑客就不一樣了,他們很可能利用安全漏洞攻擊系統(tǒng)。

既能攻,也能守,但 Mythos 預覽版的進攻潛力還是大到讓人擔憂。一旦落入不懷好意的人手里,就能瞬間武裝起 AI 級別的攻擊鏈。Anthropic 自己都說,這不是普通的前沿模型,通用能力已經強到能把網絡戰(zhàn)直接拉到新維度。

而計算機安全領域的攻防戰(zhàn),一向都是「魔高一丈,道高一尺」,過去兩年圍繞 AI 大模型的安全攻防戰(zhàn)也是行業(yè),尤其是大廠關注的重點之一。遠的不說,國內的字節(jié)跳動、螞蟻這兩年都有舉辦類似的 AI 大模型攻防戰(zhàn),通過紅(攻擊方)、藍(防御方)對抗發(fā)現(xiàn)和解決 AI 時代的安全挑戰(zhàn)。

a9ef-7de8cdaffb2ab4aeb5234d1d6e6ce980.png

圖片來源:全球 AI 大模型攻防挑戰(zhàn)賽

不過 Anthropic 也指出,長遠來看像 Mythos 預覽版這樣強大的語言模型,更利于「藍隊」進行防御。但在短期內,Mythos 預覽版如果開放公眾使用很快就會被攻擊者利用,用前所未有的效率攻擊現(xiàn)在的全球網絡。關鍵問題在于,防御行為更被動,攻擊行為更主動,考慮到利益,攻擊方也更有動力積極使用 Mythos 預覽版這樣的模型。

所以為了「平穩(wěn)過渡」,Anthropic 推出了「玻璃翼計劃」。

這里額外一提,這個項目名的靈感來自一種廣泛分布在美洲的寬紋黑脈綃蝶,因為透明的翅膀更多被稱為「玻璃翼蝶」,盡管看起來很脆弱,但實際上它們的翅膀可以承載相當于自身體重 40 倍的重量。

glasswing-butterfly-6214689_1280.jpg

玻璃翼蝶,圖片來源:Pixabay

「玻璃翼計劃」的邏輯也很簡單,就是讓防御方先拿到武器,在攻擊方拿到同級別 AI 之前,先把漏洞全堵上,并學會基于先進 AI 的安全防御。

所以從這個角度來說,Claude 的最強模型,不給人用是對的。但不僅如此,就算從普通 Claude 用戶的角度來看,暫時不開放 Claude Mythos 預覽版也是利大于弊。

最強模型不開放,Claude 反而更好用?

很多人看到 Mythos 預覽版不開放,第一反應是失望:這么強的模型,為什么不給大家用?

但如果你是普通 Claude 用戶,或者每天靠 Claude Code 寫代碼、做項目的開發(fā)者,你可能會發(fā)現(xiàn)一個有點反直覺的事實,暫時不開放 Mythos 預覽版,對我們反而利大于弊。

先說說最近大家最有感的痛點。

大概從今年 2 月開始,Claude 和 Claude Code 就迎來了「史詩級性能削弱」。Reddit 的 r/ClaudeCode 和 r/ClaudeAI 里,相關帖子刷屏,有人直接發(fā)帖《4.6 Regression is real!》,有人吐槽「Claude Code has been dumb over the last 1.5-2 days」。

截屏2026-04-08 18.27.10.png

圖片來源:Reddit

還有開發(fā)者用數據追蹤,文件讀取次數從以前的 6-7 次掉到只剩 2 次左右,復雜任務里模型越來越「懶」,思考深度明顯變淺,經常直接 edit-first 而不是先調研。

AMD AI 總監(jiān) Stella Laurenzo 甚至公開說 Claude Code 變得「dumber and lazier」,不能信任它做復雜工程任務。

Boris(Claude Code 團隊成員)則在 Hacker News 上回復,承認部分 agentic 用例出現(xiàn)了 regression,核心變化是 2 月引入的 「redact-thinking」 和 Adaptive Thinking,讓模型自己決定思考多久,結果復雜任務的深度下降了大約 67%。

082b-b843f53c12b382a34f8fcae402d8871b.png

圖片來源:Linkedln

類似的聲音在 X 上也一直有,開發(fā)者抱怨 Claude Code 已經退化成了需要全程盯著的「實習生」。

為什么會出現(xiàn)這種情況?

超大參數模型訓練的規(guī)律擺在這里:每當大廠全力沖刺下一代「最強模型」時,都需要海量算力。Gemini 在推 3.0 / 3.1 前,2.5 Pro 就多次被開發(fā)者吐槽 silent update 后變蠢,長上下文忘記內容、邏輯任務失敗率上升。類似的情況也發(fā)生在 GPT-5 發(fā)布前,4o 就出現(xiàn)過輸出變短、變懶、復雜指令機械化等「降智」反饋。

算力是有限的,訓練 Mythos 這樣全新層級的模型,成本極高,只能從當前「擠」資源,通過動態(tài)負載均衡、自適應 effort 降低、甚至輕度優(yōu)化等方式,但結果就是大家感覺到的「變笨、變懶」。

此外,Claude Code 用戶量增長遠超預期,基礎設施多次吃緊,而 Mythos 預覽版(內部 Capybara)的訓練和測試又要優(yōu)先占用頂級 GPU。所以,當 Mythos 預覽版發(fā)布卻不開放給公眾時,不用擔心算力進一步被稀釋,導致 Claude 或者 Claude Code 的質量繼續(xù)下滑。

對普通 Claude 用戶來說,體驗反而會更穩(wěn)定。

另一方面,Anthropic 用 Mythos 在「玻璃翼計劃」里幫大廠和開源項目修漏洞,這些漏洞修好后,最終也會間接惠及所有用戶。

而等 Anthropic 把風險控制和基礎設施準備得更充分,再安全地大規(guī)模部署 Mythos 級模型,那時候普通用戶拿到的,才是真正穩(wěn)定、強大、不會三天兩頭「降智」的體驗,而不是現(xiàn)在急著放出來、然后大家一起承受算力擠占的陣痛。

寫在最后

Claude Mythos 預覽版的出現(xiàn),把一個殘酷卻現(xiàn)實的問題擺在了所有人面前:AI 越強大,風險就越真實。

當最強模型的進攻能力已經遠超當前防御體系時,Anthropic 選擇「不給人用」,不是保守,而是把時間買給了整個行業(yè),讓防守方先把地基加固,讓普通用戶先擁有相對穩(wěn)定的 Claude 體驗,而不是一起卷入算力擠占和安全失控的混亂。

對大部分來說,這或許就是當下最好的安排。 

claudeAnthropic大模型

來源:雷科技

本文圖片來自:123RF 正版圖庫     

       原文標題 : 97.6%接近滿分!Claude最強模型發(fā)布,但不敢給用戶用:太危險

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號