Google“AI奧運會”:用游戲基準(zhǔn)測試模型真實能力
AI新產(chǎn)品每天接連發(fā)布,測試基準(zhǔn)和平臺也是層出不窮。
不過,你是否想過,游戲也能用來測試AI?
2026年2月初,Google和Kaggle一起想出了一個新點子:在Kaggle的Game Arena上開展一次前所未有的“AI奧運會”。

比賽項目一共有三個:
在國際象棋的棋盤上,Gemini 3 Pro和Gemini 3 Flash展開了“阿爾法狗”之間的巔峰對決;
在狼人殺的夜晚,Claude、GPT和Grok輪流扮演村民和狼人,用自然語言編織謊言與真相;
在德州撲克的牌桌上,十位世界頂級模型選手在90萬手對局中計算每一分期望值。
這一切,都源自于Google DeepMind團(tuán)隊和Kaggle平臺的一個深刻洞察:現(xiàn)實世界的決策,從來都沒有為之提供完美信息的棋盤。
為了衡量AI在現(xiàn)實世界中的真實能力,雙方一同構(gòu)建了由三種游戲組成的“認(rèn)知階梯”,同時也對應(yīng)AI必須掌握的三種核心能力:戰(zhàn)略規(guī)劃、社會推理和風(fēng)險決策。
新發(fā)布的狼人殺和德州撲克基準(zhǔn),正在以前所未有的技術(shù)深度和評測復(fù)雜度,將AI能力評測推進(jìn)到社會性與不確定性的全新領(lǐng)域。
01 國際象棋:AI的理性骨架
事實上,這一思路并非突發(fā)奇想。早在去年8月,Google就與Kaggle合作試圖驗證AI模型在戰(zhàn)略游戲中進(jìn)行競爭的能力,而一切都起源于一項古老的游戲:國際象棋。

作為完美信息博弈(所有參與者決策時都能完全獲得此前所有行動信息)的典范,國際象棋是測試AI戰(zhàn)略推理、動態(tài)適應(yīng)和長期規(guī)劃能力最理想的沙盒之一。
以一款名為Stockfish的全球頂級開源國際象棋引擎為代表,傳統(tǒng)方法大多選擇暴力搜索的方式進(jìn)行決策;但Gemini系列的大語言模型則另辟蹊徑,依靠模式識別和“直覺”大幅縮小搜索空間。
顯然,后者的下法與人類的思維更為接近。在大語言模型的內(nèi)部思考過程中,也展現(xiàn)出“子力活躍性(piece mobility)”、“兵結(jié)構(gòu)(pawn structure)”和“王的安全(king safety)”等對于人類概念的理解。
因此,這不僅是性能的提升和技術(shù)的演進(jìn),還是范式的轉(zhuǎn)變:它證明了大語言模型可以在不依賴專用算法的情況下,僅依靠訓(xùn)練階段積累的知識以及推理能力即可達(dá)到人類的“大師級”水平。
不過,萬物都有兩面性。國際象棋作為一項完美信息博弈的游戲,機(jī)制過于透明,其結(jié)果無法回答一個更加貼近現(xiàn)實的問題:當(dāng)信息不再透明,當(dāng)對手能夠欺騙,AI又該如何應(yīng)對?
Google和Kaggle設(shè)計出兩款新的游戲測試基準(zhǔn),正是為了探究這個問題的答案。
02 狼人殺:AI的社交皮膚與安全沙盒
為了讓AI在不完美信息博弈中也能做出最優(yōu)決策,Google和Kaggle在Game Arena中引入了首個多智能體團(tuán)隊游戲:狼人殺。

由于現(xiàn)有的狼人殺規(guī)則各不相同,身份過于復(fù)雜,評測基準(zhǔn)選定了經(jīng)典的8人局游戲模式(2狼人+1醫(yī)生+1預(yù)言家+4平民),并規(guī)定AI只能通過純自然語言進(jìn)行溝通與合作、欺騙與反欺騙。這也意味著未來企業(yè)級的AI助理必須具備溝通、談判以及在模糊的信息中達(dá)成共識的能力。
盡管游戲規(guī)模已經(jīng)壓縮至8人4身份,但仍顯復(fù)雜的游戲面臨根本性的方法論挑戰(zhàn):以現(xiàn)階段比較流行的Elo機(jī)制為代表的傳統(tǒng)玩家評級系統(tǒng)都是針對對稱對抗或同質(zhì)化玩家而設(shè)計,但無法處理狼人殺中存在的角色互異性和團(tuán)隊依賴性兩大難題。
角色互異性導(dǎo)致扮演狼人/醫(yī)生/預(yù)言家/平民的AI的技能要求截然不同,團(tuán)隊依賴性則決定了單個玩家的勝敗高度取決于對手和隊友的表現(xiàn)。由此誕生了一個核心問題:在一個8人的團(tuán)隊游戲中,如何公平地給每個AI玩家打分?一局游戲的勝敗是8個人共同作用的結(jié)果,如何判定誰的貢獻(xiàn)大、誰在拖后腿?
好在,Google DeepMind團(tuán)隊提出了名為Polarix的評估框架。這個極具創(chuàng)造性的解決方案能夠?qū)⒗侨藲⒌脑u測問題重構(gòu)為三人“元游戲(meta-game)”:
裁判(Judge)負(fù)責(zé)選定一個特定的身份;
經(jīng)理A(Manager A)負(fù)責(zé)為這個身份挑選一個AI模型來扮演;
經(jīng)理B(Manager B)負(fù)責(zé)為剩下的7個身份分配其他AI模型來扮演。
隨后,參與游戲的8個模型就可以進(jìn)行一局完整的狼人殺游戲,并產(chǎn)生明確的勝負(fù)結(jié)果。這個過程將針對每一個角色重復(fù)進(jìn)行大量測試,直至系統(tǒng)達(dá)到納什均衡(Nash equilibrium)。在這個均衡狀態(tài)下,任何一位玩家單方面改變自己的策略(即更換模型)都無法提升勝率,由此就能揭示每個模型在每個身份上的真實價值。
例如,Gemini 3 Pro被選作預(yù)言家的頻率遠(yuǎn)高于其他模型,而且被選中時平民陣營的勝率明顯更高,那么Gemini 3 Pro就會在預(yù)言家這個角色上拿到最高的評分。

Polarix避開了直接量化個人貢獻(xiàn)這一指標(biāo),轉(zhuǎn)而通過類似市場競爭的機(jī)制來間接衡量價值。同時,Polarix既可以給出一個線性的排名,又可以捕捉到非傳遞性的能力循環(huán)。評測結(jié)果顯示,Gemini 3 Pro和Flash分別擅長扮演狼人和預(yù)言家,其他模型都只能得到負(fù)勝率,GPT-5 mini則非常不適合扮演狼人。
狼人殺測試基準(zhǔn)的意義不僅在于游戲?qū)用嫔系谋憩F(xiàn),更在于AI安全研究方面的價值。這個不完美信息博弈的游戲創(chuàng)造了一個“紅隊測試(red-teaming)”環(huán)節(jié)。研究者可以同時直觀測量模型作為村民時識別邏輯矛盾、檢測欺騙行為的能力,以及作為狼人時生成可信謊言、虛構(gòu)敘事、操縱群體共識的能力。
正如Google在博客上說的:我們不能假裝AI不會欺騙,而是必須去評估和衡量它。
03 德州撲克:AI的風(fēng)險偏好與理性極限
如果狼人殺是在考驗AI的“社會性”人格扮演能力,那么Google和Kaggle設(shè)計的下一項測試:德州撲克,則是在試探AI純粹的理性和風(fēng)險偏好。

在這個撲克牌游戲中,由于只知道自己的兩張底牌,AI必須面臨極致的不完美信息和無限的風(fēng)險敞口。AI的核心挑戰(zhàn)是在無法獲得對手手牌信息的情況下,通過解讀對手的下注模式來推斷范圍,并以此得出最大化長期期望值的決策。
用撲克牌游戲來測試就不得不直面運氣存在的事實。為了盡可能排除運氣干擾,Game Arena設(shè)計了復(fù)現(xiàn)式對局。任意兩個模型之間都會進(jìn)行共計20000手的對局,在正常進(jìn)行10000手對戰(zhàn)后,交換雙方底牌并完全復(fù)現(xiàn)此前的發(fā)牌順序,再進(jìn)行10000手對戰(zhàn),完美抵消發(fā)牌的隨機(jī)性。
與卡內(nèi)基梅隆大學(xué)研發(fā)的、專攻1v1無限注德州撲克不完美信息博弈的AI系統(tǒng)Libratus不同,參與此次評測的大語言模型被禁止使用任何外部工具,即無法使用范圍計算器、賠率表或是需要預(yù)先計算的博弈論策略。模型只能依靠自身在訓(xùn)練過程中學(xué)習(xí)到的撲克牌理論知識和對手的實時行為進(jìn)行動態(tài)推理。
模型在每次決策時都需要綜合考慮底池賠率、隱含賠率、對手手牌組合、自身打牌風(fēng)格等因素。而這些復(fù)雜的計算和判斷必須于60秒內(nèi)在模型內(nèi)部完成并給出合法的動作。如果模型輸出了非法動作,系統(tǒng)只會允許一次重試機(jī)會,此后默認(rèn)采取最保守的行動。
表面上看是撲克牌游戲,實則是Google與Kaggle對大語言模型內(nèi)生知識儲備和實時概率推理能力的極限壓力測試。
撲克牌測試基準(zhǔn)的參賽選手共有十位,其中包括國產(chǎn)模型DeepSeek V3.2以展現(xiàn)評測的開放性和影響力。不過,測試仍在進(jìn)行中,最終的排行榜將于明日揭曉。
04 認(rèn)知生態(tài):評測范式的躍遷
Google和Kaggle合作建立Game Arena的革命性意義并非選擇了三個眾所周知的經(jīng)典游戲,而是系統(tǒng)性地構(gòu)建了一個從原子化的能力到認(rèn)知生態(tài)的評測框架。AI的評測基準(zhǔn)必須緊緊追隨AI的能力從實驗室走向現(xiàn)實,完成根本性的范式轉(zhuǎn)移。
對于傳統(tǒng)的AI基準(zhǔn)測試來說,無論是經(jīng)典的MMLU知識問答,還是HumanEval代碼生成,盡管都在推陳出新,但本質(zhì)上都是在測量模型的靜態(tài)原子化技能。雖然測試領(lǐng)域各有不同,但基本假設(shè)卻幾乎一致:世界是確定的、任務(wù)是孤立的、輸入是規(guī)范的。
我們必須承認(rèn)這些基準(zhǔn)測試在大語言模型發(fā)展的早期階段功不可沒,但隨著模型能力日新月異,“跑分沒輸過,實用沒用過”的現(xiàn)象仿佛每天都在發(fā)生。Gemini和GPT的性能每天都在“被超越”,但領(lǐng)先地位卻沒有一絲動搖。
原因很簡單:在面對真實世界的模糊性、對抗性和動態(tài)協(xié)作需求時,靜態(tài)跑分沒有說服力。
Game Arena制定的三重基準(zhǔn)雖然看起來有些娛樂化,但卻指向了一個更高維度的目標(biāo):測試模型在一個微觀的社會經(jīng)濟(jì)生態(tài)系統(tǒng)中是否具備生存和適應(yīng)能力。
國際象棋構(gòu)成這個微觀生態(tài)系統(tǒng)的邏輯內(nèi)核,它能反映出智能體在規(guī)則清晰、信息透明的理想環(huán)境下進(jìn)行長期規(guī)劃、因果推理的能力。這是單智能體通往通用人工智能的底層能力基礎(chǔ)。
狼人殺開始向微觀生態(tài)系統(tǒng)中注入社會性,多智能體需要在充斥著信任與欺騙的復(fù)雜語言網(wǎng)絡(luò)中自主行動。勝利與失敗不僅取決于單智能體的智能程度和邏輯推理能力,還取決于是否能理解其他智能體的意圖、建立有效溝通、在信息不對稱時集體行動。這是多智能體系統(tǒng)和人機(jī)協(xié)作的核心挑戰(zhàn)。
德州撲克則進(jìn)一步將經(jīng)濟(jì)性引入微觀生態(tài)系統(tǒng),將決策置于一個以資源為媒介、以風(fēng)險和回報為核心驅(qū)動力的環(huán)境中。智能體需要具備量化不確定性、管理風(fēng)險敞口、通過行為建模進(jìn)行策略博弈的能力。這是在金融、商業(yè)環(huán)境下進(jìn)行決策的真實寫照。
看似毫不沾邊的三款游戲并非簡單疊加,而是構(gòu)成了一個相互耦合、彼此可驗證的認(rèn)知閉環(huán)。僅僅精通其中一項的AI,必定會因為缺乏其他能力而在另外兩項游戲中屢屢落敗。
Game Arena要求未來的AI模型不能再是獨立的工具,而是能夠在邏輯、社會和經(jīng)濟(jì)三大維度上協(xié)同運作、具備完整認(rèn)知架構(gòu)的智能體集合。
因此,模型只有在三重壓力測試下展現(xiàn)出可靠且可解釋的行為時,我們才有理由相信它已經(jīng)具備了在現(xiàn)實世界中充當(dāng)人類伙伴的資格。
原文標(biāo)題 : Google“AI奧運會”:用游戲基準(zhǔn)測試模型真實能力
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
6月30日立即申請試用>> 【免費試用】旭之源工業(yè)電源一一機(jī)器人的穩(wěn)定“心臟“
-
精彩回顧立即查看>> 【限時免費】物理場仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國機(jī)器人產(chǎn)業(yè)大會
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國機(jī)器人行業(yè)年度評選
推薦專題
-
2 華為,重大突破!
- 1 人形機(jī)器人“第一股”來了!宇樹科技即將上會
- 2 全球股市陷AI獨大結(jié)構(gòu)性瘋狂
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 DeepSeek融資500億,梁文鋒難逃資本局
- 5 谷歌2026 I/O大會完整回顧:模型依然重要,但智能體正在接管一切
- 6 全球資本,重倉中國機(jī)器人
- 7 Figure AI 交付突破350臺,陪跑特斯拉會迎來iPhone 時刻嗎?
- 8 Anthropic發(fā)布2028年全球AI領(lǐng)導(dǎo)力的兩種情景報告
- 9 “國產(chǎn)GPU第一股”摩爾線程首季扭虧,但造血能力仍待考驗
- 10 特斯拉宣布監(jiān)督版FSD登陸中國?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享













