高考AI測(cè)評(píng)亂象頻現(xiàn),殘缺題干竟也能答出完整答案

評(píng)測(cè)亂象該剎車了/AI圖
手工勞動(dòng)/挖哥手工編輯 /角叔出品/獨(dú)角獸觀察一年一度的高考落幕,全民熱議的考試話題,再度成為網(wǎng)絡(luò)流量角逐的“主戰(zhàn)場(chǎng)”。
與往屆不同的是,隨著人工智能大模型普及和成熟,各類AI產(chǎn)品走進(jìn)大眾視野。當(dāng)學(xué)子們?cè)诳紙?chǎng)內(nèi)答題時(shí),考場(chǎng)外,大模型也被“投喂”各個(gè)版本的高考試題,一決高下。
用高考試題來(lái)檢驗(yàn)AI解題能力,無(wú)可厚非,但一些營(yíng)銷號(hào)缺乏科學(xué)的態(tài)度、嚴(yán)謹(jǐn)?shù)恼撟C方式,導(dǎo)致得出的測(cè)評(píng)結(jié)論脫離客觀事實(shí),經(jīng)不起推敲。這不僅誤導(dǎo)學(xué)生及家長(zhǎng),也擾亂了AI行業(yè)良性發(fā)展秩序。
01評(píng)測(cè)翻車,殘缺題干仍出完整答案
今年高考期間,一篇題為《“選拔牛頓接班人”的最難高考物理題,千問(wèn)三答全對(duì)》的自媒體文章在社交平臺(tái)吸引了不少眼球。
該文宣稱憑借2026年廣東高考物理壓軸真題開(kāi)展AI橫向測(cè)評(píng),得出“千問(wèn)滿分答對(duì),其他兩家AI全程翻車”的結(jié)論,憑借強(qiáng)烈的對(duì)立感、懸念感收割流量。

這道題以平行板電容器、絕緣桿、帶電小球、絕緣繩為物理模型,融合電場(chǎng)力、重力、圓周運(yùn)動(dòng)、碰撞帶電翻轉(zhuǎn)等多個(gè)核心知識(shí)點(diǎn),整道題目分為三個(gè)遞進(jìn)式小問(wèn)題,環(huán)環(huán)相扣,題干信息、圖形描述、物理?xiàng)l件、設(shè)問(wèn)要求缺一不可。
文章在結(jié)尾處稱物理最能暴露AI真實(shí)水平,因?yàn)槲锢眍}要求”視覺(jué)理解+語(yǔ)義理解,抽象思維+領(lǐng)域知識(shí),推理規(guī)劃,計(jì)算+驗(yàn)證能力”等綜合能力,任何一個(gè)環(huán)節(jié)斷裂,后面全部歸零。
如果光從文章展示的答題過(guò)程和結(jié)果來(lái)看,似乎找不出什么毛病。

但有細(xì)心的網(wǎng)友實(shí)測(cè)還原測(cè)評(píng)場(chǎng)景后發(fā)現(xiàn),這個(gè)所謂“滿分作答”背后暗藏“玄機(jī)” —— 如果將這道高考物理大題裁去部分內(nèi)容,僅保留殘缺題干、隱去核心設(shè)問(wèn),最后千問(wèn)模型依舊能輸出完整答案。
這樣一看,文中夸贊的“視覺(jué)理解+語(yǔ)義理解”就顯得有些諷刺了。因?yàn)槿绻曈X(jué)理解好的話,應(yīng)該能識(shí)別得出“題目不完整、缺少作答要求”。
結(jié)合AI行業(yè)技術(shù)常識(shí)不難判斷,該模型很可能是在知識(shí)庫(kù)中收錄了這道完整高考物理題的題干、解題步驟和標(biāo)準(zhǔn)答案,大概率是在“背誦”答案。
平心而論,AI產(chǎn)品收錄高考等試題答案屬于常規(guī)操作,并不能算是“作弊”,造成這個(gè)測(cè)評(píng)最后翻車還是這個(gè)測(cè)評(píng)本身過(guò)于片面,缺乏科學(xué)的論證。

有意思的是,《獨(dú)角獸觀察》把這篇夸贊千問(wèn)的測(cè)評(píng)文章去詢問(wèn)千問(wèn)是否科學(xué)、客觀?
千問(wèn)給出的結(jié)論是“這不是一篇雙盲、隨機(jī)、多維度的科學(xué)評(píng)測(cè)”,并指出這篇文章最大的科學(xué)硬傷在于樣本選擇的隨機(jī)性缺失:僅憑一道題(雖然是壓軸題)就斷言“一家全對(duì),兩家全錯(cuò)”,并由此推導(dǎo)出“物理最能暴露AI真實(shí)水平”,這在統(tǒng)計(jì)學(xué)上是不成立的。一道題可能恰好是千問(wèn)訓(xùn)練數(shù)據(jù)中的“強(qiáng)項(xiàng)”,或者其算法恰好契合這道題的邏輯陷阱。
真正的科學(xué)評(píng)測(cè)應(yīng)該包含不同類型的題目(如簡(jiǎn)單的概念題、復(fù)雜的計(jì)算題、實(shí)驗(yàn)題等)。只測(cè)一道“最難”的題,只能說(shuō)明在極端情況下的表現(xiàn),不能代表整體物理水平。
此處給千問(wèn)點(diǎn)贊。
02邏輯失真,高考評(píng)測(cè)亂象叢生
一場(chǎng)嚴(yán)謹(jǐn)?shù)?AI 能力測(cè)評(píng),核心原則是 “客觀、公正、完整、可復(fù)現(xiàn)”,測(cè)評(píng)場(chǎng)景、測(cè)試素材、評(píng)判標(biāo)準(zhǔn)必須公開(kāi)透明,測(cè)評(píng)結(jié)論要建立在真實(shí)測(cè)試數(shù)據(jù)之上。
此次引發(fā)爭(zhēng)議的自媒體測(cè)評(píng),從測(cè)試設(shè)計(jì)、過(guò)程呈現(xiàn)到結(jié)論推導(dǎo),全程存在多處硬傷,最后的結(jié)論完全站不住腳,連被夸贊的千問(wèn)大模型都 “不好意思接受”。
尤其值得警惕的是,測(cè)評(píng)選用的是高考真題這類公開(kāi)試題 —— 這類題目一般是通過(guò)考生回憶記錄,在網(wǎng)上流傳,初期版本往往存在大量錯(cuò)漏情況。專業(yè)的評(píng)測(cè)應(yīng)該做好題目校對(duì),用AI大模型本身的推理能力進(jìn)行測(cè)試,避免聯(lián)網(wǎng)搜索答案。
或出于蹭流量,或出于專業(yè)能力不足,或出于信息不對(duì)稱,今年高考試題評(píng)測(cè)翻車情況還不少。
一些評(píng)測(cè)存在“胡亂打分”現(xiàn)象,對(duì)步驟漏洞百出、邏輯混亂的答卷,刻意包裝為“滿分”營(yíng)銷素材,將明顯的推導(dǎo)錯(cuò)誤、符號(hào)誤用美化成 “解題亮點(diǎn)”,甚至為特定 AI 模型量身打造 “滿分神話”。

比如像這個(gè)被捧為交滿分的AI答卷,原題條件有“當(dāng)0
還有一些評(píng)測(cè)也極不嚴(yán)謹(jǐn),測(cè)試出“聳人聽(tīng)聞”的結(jié)果——所有大模型沒(méi)有一個(gè)答對(duì)的,后來(lái)網(wǎng)友發(fā)現(xiàn)原來(lái)是測(cè)試的題目傳錯(cuò)了,讓人哭笑不得。
更有評(píng)測(cè)全程不公開(kāi)完整答題過(guò)程,僅憑幾張截圖、幾句斷章取義的文案就拼湊出幾大AI解題能力榜單,榜單數(shù)據(jù)來(lái)源不明、對(duì)比維度缺失,卻在社交平臺(tái)瘋狂傳播。
這樣的測(cè)評(píng)本身就缺乏專業(yè)知識(shí),文案華麗、話術(shù)夸張,滿是“最強(qiáng)”“天花板”“碾壓同行”等絕對(duì)化用語(yǔ),僅憑主觀感受評(píng)價(jià)AI性能,完全喪失中立客觀性。
這類亂象以高考熱點(diǎn)為噱頭,將測(cè)評(píng)異化為營(yíng)銷工具,既擾亂了公眾對(duì) AI 真實(shí)能力的判斷,也消解了測(cè)評(píng)內(nèi)容本應(yīng)具備的參考價(jià)值與專業(yè)可信度,讓嚴(yán)謹(jǐn)?shù)募夹g(shù)對(duì)比淪為流量炒作的工具,是時(shí)候剎車了。(完)
原文標(biāo)題 : 高考AI測(cè)評(píng)亂象頻現(xiàn),殘缺題干竟也能答出完整答案
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來(lái)了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-

長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
6月30日立即報(bào)名>> 【直播】 AI X 6G無(wú)線智能與下一代通信測(cè)試論壇
-
6月30日立即申請(qǐng)?jiān)囉?> 【免費(fèi)試用】旭之源工業(yè)電源一一機(jī)器人的穩(wěn)定“心臟“
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來(lái)·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
推薦專題
- 1 人形機(jī)器人“第一股”來(lái)了!宇樹(shù)科技即將上會(huì)
- 2 全球股市陷AI獨(dú)大結(jié)構(gòu)性瘋狂
- 3 特斯拉宣布監(jiān)督版FSD登陸中國(guó)?
- 4 谷歌2026 I/O大會(huì)完整回顧:模型依然重要,但智能體正在接管一切
- 5 Agnes AI 發(fā)布三大模態(tài)核心模型:文本、圖像、視頻
- 6 騰訊云宣布調(diào)價(jià):DeepSeek-V4降價(jià)97%
- 7 “國(guó)產(chǎn)GPU第一股”摩爾線程首季扭虧,但造血能力仍待考驗(yàn)
- 8 元寶“漏水”,騰訊只拿到了AI“站票”
- 9 Anthropic發(fā)布2028年全球AI領(lǐng)導(dǎo)力的兩種情景報(bào)告
- 10 特斯拉官宣監(jiān)督版FSD登陸中國(guó)
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





