RoboArena登頂夢(mèng)碎!具身智能的榜單狂歡,原來只是一個(gè)數(shù)據(jù)騙局

文 | 智能相對(duì)論
作者 | 陳泊丞
兩周前,千尋智能無疑是整個(gè)具身智能賽道當(dāng)之無愧的明星企業(yè)。
一是千尋智能自研的具身基座模型Spirit v1.6,在RoboArena榜單上綜合得分全球第一,力壓英偉達(dá)Cosmos3和Physical Intelligence的Pi0.5,“打破硅谷霸榜魔咒”。
二是千尋智能再獲15億元A+輪融資,三個(gè)月內(nèi)累計(jì)融資近50億元,刷新了具身智能賽道的紀(jì)錄。

這兩件事,信息量很大,都來自千尋智能公眾號(hào)于6月3日發(fā)了一篇推文:《雙線告捷!千尋智能Spirit v1.6橫掃北美「具身奧林匹克」奪冠,再獲15億元A+輪融資》。技術(shù)登頂,資本加碼,兩條主線在同一個(gè)時(shí)間節(jié)點(diǎn)交匯,一切都顯得順理成章。
在推文里,RoboArena甚至被賦予了極高的包裝——“北美具身智能奧林匹克”“世界級(jí)權(quán)威主榜單”“機(jī)器人領(lǐng)域的Chatbot Arena”。這些名頭堆在一起,給外界的感覺很顯著——這不是一次普通的上榜,這是一場(chǎng)國際賽場(chǎng)的登頂。

資本追逐榜單,榜單加持融資,邏輯環(huán)環(huán)相扣。
但僅僅幾天之后,事情開始不對(duì)勁了。
有人注意到RoboArena上Spirit 1.6的評(píng)測(cè)數(shù)據(jù)很異常。310次評(píng)測(cè)記錄中,72%的分?jǐn)?shù)來自兩個(gè)賬號(hào)——ECUST Robot Lab(179次,勝率97%)和Robotics Lab(45次,勝率86.7%)。而NVIDIA用同樣模型測(cè)了21次,勝率0%。


更戲劇性的是,RoboArena官方很快發(fā)布了公告。回溯調(diào)查之后,他們移除了一批可疑評(píng)測(cè)數(shù)據(jù),更新了榜單排名。Spirit 1.6的名字,從榜單上消失了。
從刷上榜、到發(fā)文宣發(fā)、到拉來融資、再到被踢出榜單,前后間隔短短數(shù)日。一切都發(fā)生得太快——但客觀而言,這已經(jīng)不是一次普通的排名波動(dòng)了,這是一個(gè)行業(yè)的信任被放在火上烤。
一場(chǎng)蓄謀已久的刷分,RoboArena是怎么被玩壞的?
先說清楚RoboArena的玩法是什么。
客觀而言,RoboArena在設(shè)計(jì)上并不是一場(chǎng)可以隨便操弄的游戲。它的核心邏輯借鑒了大模型領(lǐng)域的Chatbot Arena:評(píng)測(cè)者不知道自己測(cè)的是哪個(gè)模型(雙盲),對(duì)手通過ELO算法隨機(jī)匹配,評(píng)測(cè)數(shù)據(jù)來自全球不同機(jī)構(gòu)的真實(shí)環(huán)境。

理論上,你想給自己刷分,門檻很高。你控制不了對(duì)手是誰,控制不了評(píng)測(cè)環(huán)境,也控制不了評(píng)測(cè)者的判斷。這套機(jī)制擺在那里,看起來確實(shí)不好作弊。
但“理論上”這三個(gè)字,往往是所有漏洞的起點(diǎn)。
首先,RoboArena是一個(gè)開放注冊(cè)的分布式評(píng)測(cè)框架。在這里,任何機(jī)構(gòu)都可以注冊(cè)成為評(píng)測(cè)者(Evaluator),在自己部署的機(jī)器人硬件上執(zhí)行評(píng)測(cè)任務(wù)。
當(dāng)然,這個(gè)設(shè)計(jì)的初衷是讓評(píng)測(cè)去中心化、去單一化,但這同時(shí)也意味著一個(gè)很簡(jiǎn)單的操作:如果你想刷分,先給自己注冊(cè)一個(gè)評(píng)測(cè)者賬號(hào)就行了。
ECUST Robot Lab、Robotics Lab,這兩個(gè)賬號(hào)在5月26日注冊(cè)進(jìn)入系統(tǒng)。從這一天起,Spirit 1.6的評(píng)測(cè)記錄開始爆發(fā)式增長。

值得玩味的是,另一家具身公司X Square Robot(自變量)注冊(cè)評(píng)測(cè)賬號(hào)時(shí),直接用了公司全名。這個(gè)操作有點(diǎn)意思,幾乎把行業(yè)的遮羞布都扯了下來——評(píng)測(cè)者不是“第三方獨(dú)立機(jī)構(gòu)”,而是“自己人”。

其次,正常來說,一個(gè)評(píng)測(cè)者應(yīng)該對(duì)榜單上的多個(gè)模型做相對(duì)均勻的評(píng)測(cè)。這是分布式框架的基本邏輯,數(shù)據(jù)分散在不同評(píng)測(cè)者手里,匯總之后才有統(tǒng)計(jì)意義。
但ECUST Robot Lab和Robotics Lab進(jìn)來之后,幾乎只做一件事,那就是反復(fù)評(píng)測(cè)Spirit 1.6。ECUST Robot Lab累計(jì)評(píng)測(cè)276次,其中179次對(duì)象是Spirit 1.6,占比64.5%。Robotics Lab累計(jì)評(píng)測(cè)142次,45次是Spirit 1.6,占比31.7%。兩個(gè)賬號(hào)加在一起,貢獻(xiàn)了Spirit 1.6全部評(píng)測(cè)數(shù)據(jù)的72%。
72%的數(shù)據(jù),來自兩個(gè)自己人。剩下的28%,來自其他真正獨(dú)立的評(píng)測(cè)者,而這些獨(dú)立評(píng)測(cè)者測(cè)出來的成績(jī),和前面兩個(gè)賬號(hào)測(cè)出來的完全不同。
到這里,事情已經(jīng)夠明顯了。
但還不止。
ELO天梯機(jī)制本來的作用,在于你只能跟排名相近的對(duì)手打,對(duì)手越強(qiáng),贏了加分越多,輸了扣分也越狠。這個(gè)機(jī)制的初衷是防止有人刷低分對(duì)手來沖排名——你打弱隊(duì)效率太低,想上去必須干掉一個(gè)強(qiáng)者。
但Spirit 1.6的評(píng)測(cè)記錄表明,它找到了另一個(gè)取巧的辦法:不是挑弱的打,而是避開強(qiáng)的打,很“聰明”地避開了真正的強(qiáng)敵。
前期,Spirit 1.6和當(dāng)時(shí)榜單第一的DreamZero交手了23次。成績(jī)是17負(fù)、4平、2勝——基本打不過。此后,Spirit 1.6不再跟DreamZero對(duì)戰(zhàn)。雙方最后一次PK記錄,停在了5月31日。
包括后來登頂?shù)哪莻(gè)模型,Cosmos3-Nano-Policy,5月30日才加入測(cè)試。Spirit 1.6跟它,竟然連一次對(duì)戰(zhàn)記錄都沒有。
一個(gè)在榜單上沖到頂?shù)哪P停瑓s從來沒有跟真正的前兩名正經(jīng)打過。這不是技術(shù)層面做不到公平對(duì)戰(zhàn),而是評(píng)測(cè)策略層面選擇性地避開了所有可能輸?shù)膶?duì)手。
到這里,一場(chǎng)刷分操作的全貌已經(jīng)清晰了:先注冊(cè)兩個(gè)自己人賬號(hào)進(jìn)評(píng)測(cè)系統(tǒng),用這兩個(gè)賬號(hào)給自己集中刷高分?jǐn)?shù)據(jù)(占總量72%),同時(shí)以“隨機(jī)匹配”為名,繞開所有真正有威脅的對(duì)手。
技術(shù)上ELO機(jī)制還在運(yùn)轉(zhuǎn),實(shí)際上天梯排名的意義已經(jīng)被架空了。
榜單狂歡背后,具身智能行業(yè)正在經(jīng)歷什么?
當(dāng)然,這件事最讓人不舒服的,不是刷分了,而是刷分和融資之間的時(shí)間線。
6月3日,千尋智能發(fā)布推文宣布Spirit 1.6登頂RoboArena。同一天,宣布完成15億元A+輪融資。三個(gè)月,累計(jì)近50億元。
在具身智能這個(gè)賽道里,技術(shù)路徑還沒收斂,商業(yè)化驗(yàn)證還在早期,外部統(tǒng)一的評(píng)價(jià)體系少得可憐。RoboArena在這樣的環(huán)境里被迅速推到了前臺(tái),成了最直觀、最容易被資本聽懂的那套“技術(shù)證據(jù)”。
要知道,榜單排名天然適合寫進(jìn)投資人的盡調(diào)材料里。它不是學(xué)術(shù)論文,它是一串可以直接放進(jìn)融資PPT里的數(shù)字和名次。因此,當(dāng)排名本身可以直接影響估值和融資節(jié)奏的時(shí)候,刷榜的動(dòng)力就不再是學(xué)術(shù)上的面子問題,而是真金白銀在驅(qū)動(dòng)。
但是,RoboArena本身離“權(quán)威”還遠(yuǎn)著。
根據(jù)公開資料,RoboArena目前仍是一個(gè)學(xué)術(shù)原型:首個(gè)版本在7所學(xué)術(shù)機(jī)構(gòu)部署,針對(duì)7個(gè)通用策略完成約600次真機(jī)對(duì)比,評(píng)測(cè)硬件綁定在DROID平臺(tái)(Franka Panda機(jī)械臂)上,尚未擴(kuò)展至其他機(jī)器人本體。論文作者也在文中指出,未來需要持續(xù)驗(yàn)證其排名結(jié)果與真實(shí)世界表現(xiàn)的相關(guān)性。
也就是說,這個(gè)被描述為“世界級(jí)權(quán)威主榜單”的評(píng)測(cè)框架,在學(xué)術(shù)圈尚且屬于“有潛力的研究方向”,離行業(yè)公認(rèn)標(biāo)準(zhǔn)還有距離。
但在千尋智能的語境里,這些限定條件全部消失了。RoboArena變成了一個(gè)已經(jīng)封神的“奧林匹克”。很顯然,一個(gè)還在驗(yàn)證中的學(xué)術(shù)原型被包裝成權(quán)威認(rèn)證,融資故事才講得通。
時(shí)至今日,當(dāng)刷分被揭穿之后,代價(jià)卻不只是千尋智能一家的事。
具身智能是中國AI里目前最熱的賽道,也是國際關(guān)注度最高的賽道之一。這次事件的信息已經(jīng)傳到了海外。當(dāng)中國具身智能企業(yè)的名字和“刷榜”兩個(gè)字被放在一起討論的時(shí)候,受到牽連的很有可能是整個(gè)行業(yè)的國際可信度。
更麻煩的是,它還會(huì)反向傷害真正在做事的公司。當(dāng)一家公司靠刷榜拿到近50億融資之后,那些沒有這么做、老老實(shí)實(shí)在實(shí)驗(yàn)室里磨技術(shù)的團(tuán)隊(duì),反而會(huì)被反復(fù)質(zhì)疑、拷問:“你的排名是真的嗎?你怎么證明?”
劣幣驅(qū)逐良幣,就從這里悄然開始、蔓延開來。
如果有人覺得“反正榜單都會(huì)被刷,那投入技術(shù)有什么用”——這才是這件事最糟糕的后果。
當(dāng)然,在這場(chǎng)風(fēng)波里,也有值得說一說的一面。
在Spirit 1.6刷分的那段時(shí)間里,WALL-OSS也在全力沖擊榜單。它沒有找到“定向只測(cè)自己”的方法,只能在合規(guī)框架里正常打榜,最終被兩個(gè)刷分賬號(hào)擠出了競(jìng)爭(zhēng)序列。作為一家真正遵守規(guī)則、按實(shí)力去打的團(tuán)隊(duì),卻被這個(gè)扭曲的評(píng)測(cè)生態(tài)攔在了門外,實(shí)屬唏噓。
此外,Cosmos3-Nano-Policy的登頂,是另一個(gè)硬核實(shí)力的證明。這次官方更新榜單之后,它還在榜上——可見,一個(gè)靠合法合規(guī)評(píng)測(cè)打上來的模型,是經(jīng)得起回溯調(diào)查的。
誠然,榜單本身不是假的。有人刷,不代表這個(gè)評(píng)價(jià)體系應(yīng)該被廢棄。但前提是,規(guī)則必須能攔住想鉆空子的人。
結(jié)語
根據(jù)最新消息,RoboArena已經(jīng)出手了。回溯調(diào)查、排除了有利益關(guān)聯(lián)的評(píng)測(cè)數(shù)據(jù)、重置了評(píng)測(cè)者準(zhǔn)入規(guī)則。這是對(duì)的,也是必要的。

但這場(chǎng)風(fēng)波,不應(yīng)該只以“榜單更新”為終點(diǎn)。
千尋智能的事件之所以值得被認(rèn)真對(duì)待,不是因?yàn)樗卸嗪币姡且驗(yàn)樗赡懿皇枪吕.?dāng)一個(gè)行業(yè)的評(píng)價(jià)標(biāo)準(zhǔn)本身還不夠成熟,而評(píng)價(jià)結(jié)果又可以直接撬動(dòng)數(shù)十億級(jí)別的融資時(shí),鉆空子的動(dòng)力是系統(tǒng)性的,不是某一個(gè)人、某一個(gè)公司的問題。
靠一份榜單講故事融資的窗口,到今天還沒關(guān)上。但通過這件事,至少有了一個(gè)可以放在臺(tái)面上的共識(shí):你拿給你的投資人看的那個(gè)“第一”,得是真的。
榜單可以更新,但信任重建,要難得多。
從今天開始,具身智能行業(yè)要走的路還很長。
*本文圖片均來源于網(wǎng)絡(luò)
原文標(biāo)題 : RoboArena登頂夢(mèng)碎!具身智能的榜單狂歡,原來只是一個(gè)數(shù)據(jù)騙局
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬
-

長安汽車母公司突然更名:從“中國長安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
6月30日立即報(bào)名>> 【直播】 AI X 6G無線智能與下一代通信測(cè)試論壇
-
6月30日立即申請(qǐng)?jiān)囉?> 【免費(fèi)試用】旭之源工業(yè)電源一一機(jī)器人的穩(wěn)定“心臟“
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國機(jī)器人產(chǎn)業(yè)大會(huì)
推薦專題
- 1 人形機(jī)器人“第一股”來了!宇樹科技即將上會(huì)
- 2 SpaceX計(jì)劃今日確定IPO條款,6月12日掛牌上市,AI業(yè)務(wù)成增長新引擎
- 3 Agnes AI 發(fā)布三大模態(tài)核心模型:文本、圖像、視頻
- 4 騰訊云宣布調(diào)價(jià):DeepSeek-V4降價(jià)97%
- 5 SpaceX上市拒絕中港投資者:資本開啟地緣政治時(shí)代
- 6 2026上半年具身智能復(fù)盤,瘋狂融資潮背后誰才是“印鈔機(jī)”
- 7 支付寶推出全球首個(gè)Token Pay服務(wù),AI時(shí)代的支付要變天了?
- 8 我們體驗(yàn)了胡彥斌Vibe Coding的App:方向是對(duì)的,細(xì)節(jié)有點(diǎn)糙
- 9 AI生態(tài)之戰(zhàn)打響:微信做入口,騰訊來托底
- 10 3000字深度|物理AI有何魔力?讓孫正義、黃仁勛、孫宇晨同時(shí)“上頭”
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





