新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

訂閱
糾錯(cuò)
加入自媒體

高考AI測(cè)評(píng)亂象頻現(xiàn),殘缺題干竟也能答出完整答案

評(píng)測(cè)亂象該剎車了/AI圖

手工勞動(dòng)/挖哥手工編輯 /角叔出品/獨(dú)角獸觀察一年一度的高考落幕,全民熱議的考試話題,再度成為網(wǎng)絡(luò)流量角逐的“主戰(zhàn)場(chǎng)”。

與往屆不同的是,隨著人工智能大模型普及和成熟,各類AI產(chǎn)品走進(jìn)大眾視野。當(dāng)學(xué)子們?cè)诳紙?chǎng)內(nèi)答題時(shí),考場(chǎng)外,大模型也被“投喂”各個(gè)版本的高考試題,一決高下。

用高考試題來(lái)檢驗(yàn)AI解題能力,無(wú)可厚非,但一些營(yíng)銷號(hào)缺乏科學(xué)的態(tài)度、嚴(yán)謹(jǐn)?shù)恼撟C方式,導(dǎo)致得出的測(cè)評(píng)結(jié)論脫離客觀事實(shí),經(jīng)不起推敲。這不僅誤導(dǎo)學(xué)生及家長(zhǎng),也擾亂了AI行業(yè)良性發(fā)展秩序。

01評(píng)測(cè)翻車,殘缺題干仍出完整答案

今年高考期間,一篇題為《“選拔牛頓接班人”的最難高考物理題,千問(wèn)三答全對(duì)》的自媒體文章在社交平臺(tái)吸引了不少眼球。

該文宣稱憑借2026年廣東高考物理壓軸真題開(kāi)展AI橫向測(cè)評(píng),得出“千問(wèn)滿分答對(duì),其他兩家AI全程翻車”的結(jié)論,憑借強(qiáng)烈的對(duì)立感、懸念感收割流量。

這道題以平行板電容器、絕緣桿、帶電小球、絕緣繩為物理模型,融合電場(chǎng)力、重力、圓周運(yùn)動(dòng)、碰撞帶電翻轉(zhuǎn)等多個(gè)核心知識(shí)點(diǎn),整道題目分為三個(gè)遞進(jìn)式小問(wèn)題,環(huán)環(huán)相扣,題干信息、圖形描述、物理?xiàng)l件、設(shè)問(wèn)要求缺一不可。

文章在結(jié)尾處稱物理最能暴露AI真實(shí)水平,因?yàn)槲锢眍}要求”視覺(jué)理解+語(yǔ)義理解,抽象思維+領(lǐng)域知識(shí),推理規(guī)劃,計(jì)算+驗(yàn)證能力”等綜合能力,任何一個(gè)環(huán)節(jié)斷裂,后面全部歸零。

如果光從文章展示的答題過(guò)程和結(jié)果來(lái)看,似乎找不出什么毛病。

但有細(xì)心的網(wǎng)友實(shí)測(cè)還原測(cè)評(píng)場(chǎng)景后發(fā)現(xiàn),這個(gè)所謂“滿分作答”背后暗藏“玄機(jī)” —— 如果將這道高考物理大題裁去部分內(nèi)容,僅保留殘缺題干、隱去核心設(shè)問(wèn),最后千問(wèn)模型依舊能輸出完整答案。

這樣一看,文中夸贊的“視覺(jué)理解+語(yǔ)義理解”就顯得有些諷刺了。因?yàn)槿绻曈X(jué)理解好的話,應(yīng)該能識(shí)別得出“題目不完整、缺少作答要求”。

結(jié)合AI行業(yè)技術(shù)常識(shí)不難判斷,該模型很可能是在知識(shí)庫(kù)中收錄了這道完整高考物理題的題干、解題步驟和標(biāo)準(zhǔn)答案,大概率是在“背誦”答案。

平心而論,AI產(chǎn)品收錄高考等試題答案屬于常規(guī)操作,并不能算是“作弊”,造成這個(gè)測(cè)評(píng)最后翻車還是這個(gè)測(cè)評(píng)本身過(guò)于片面,缺乏科學(xué)的論證。

有意思的是,《獨(dú)角獸觀察》把這篇夸贊千問(wèn)的測(cè)評(píng)文章去詢問(wèn)千問(wèn)是否科學(xué)、客觀?

千問(wèn)給出的結(jié)論是“這不是一篇雙盲、隨機(jī)、多維度的科學(xué)評(píng)測(cè)”,并指出這篇文章最大的科學(xué)硬傷在于樣本選擇的隨機(jī)性缺失:僅憑一道題(雖然是壓軸題)就斷言“一家全對(duì),兩家全錯(cuò)”,并由此推導(dǎo)出“物理最能暴露AI真實(shí)水平”,這在統(tǒng)計(jì)學(xué)上是不成立的。一道題可能恰好是千問(wèn)訓(xùn)練數(shù)據(jù)中的“強(qiáng)項(xiàng)”,或者其算法恰好契合這道題的邏輯陷阱。

真正的科學(xué)評(píng)測(cè)應(yīng)該包含不同類型的題目(如簡(jiǎn)單的概念題、復(fù)雜的計(jì)算題、實(shí)驗(yàn)題等)。只測(cè)一道“最難”的題,只能說(shuō)明在極端情況下的表現(xiàn),不能代表整體物理水平。

此處給千問(wèn)點(diǎn)贊。

02邏輯失真,高考評(píng)測(cè)亂象叢生

一場(chǎng)嚴(yán)謹(jǐn)?shù)?AI 能力測(cè)評(píng),核心原則是 “客觀、公正、完整、可復(fù)現(xiàn)”,測(cè)評(píng)場(chǎng)景、測(cè)試素材、評(píng)判標(biāo)準(zhǔn)必須公開(kāi)透明,測(cè)評(píng)結(jié)論要建立在真實(shí)測(cè)試數(shù)據(jù)之上。

此次引發(fā)爭(zhēng)議的自媒體測(cè)評(píng),從測(cè)試設(shè)計(jì)、過(guò)程呈現(xiàn)到結(jié)論推導(dǎo),全程存在多處硬傷,最后的結(jié)論完全站不住腳,連被夸贊的千問(wèn)大模型都 “不好意思接受”。

尤其值得警惕的是,測(cè)評(píng)選用的是高考真題這類公開(kāi)試題 —— 這類題目一般是通過(guò)考生回憶記錄,在網(wǎng)上流傳,初期版本往往存在大量錯(cuò)漏情況。專業(yè)的評(píng)測(cè)應(yīng)該做好題目校對(duì),用AI大模型本身的推理能力進(jìn)行測(cè)試,避免聯(lián)網(wǎng)搜索答案。

或出于蹭流量,或出于專業(yè)能力不足,或出于信息不對(duì)稱,今年高考試題評(píng)測(cè)翻車情況還不少。

一些評(píng)測(cè)存在“胡亂打分”現(xiàn)象,對(duì)步驟漏洞百出、邏輯混亂的答卷,刻意包裝為“滿分”營(yíng)銷素材,將明顯的推導(dǎo)錯(cuò)誤、符號(hào)誤用美化成 “解題亮點(diǎn)”,甚至為特定 AI 模型量身打造 “滿分神話”。

比如像這個(gè)被捧為交滿分的AI答卷,原題條件有“當(dāng)0

還有一些評(píng)測(cè)也極不嚴(yán)謹(jǐn),測(cè)試出“聳人聽(tīng)聞”的結(jié)果——所有大模型沒(méi)有一個(gè)答對(duì)的,后來(lái)網(wǎng)友發(fā)現(xiàn)原來(lái)是測(cè)試的題目傳錯(cuò)了,讓人哭笑不得。

更有評(píng)測(cè)全程不公開(kāi)完整答題過(guò)程,僅憑幾張截圖、幾句斷章取義的文案就拼湊出幾大AI解題能力榜單,榜單數(shù)據(jù)來(lái)源不明、對(duì)比維度缺失,卻在社交平臺(tái)瘋狂傳播。

這樣的測(cè)評(píng)本身就缺乏專業(yè)知識(shí),文案華麗、話術(shù)夸張,滿是“最強(qiáng)”“天花板”“碾壓同行”等絕對(duì)化用語(yǔ),僅憑主觀感受評(píng)價(jià)AI性能,完全喪失中立客觀性。

這類亂象以高考熱點(diǎn)為噱頭,將測(cè)評(píng)異化為營(yíng)銷工具,既擾亂了公眾對(duì) AI 真實(shí)能力的判斷,也消解了測(cè)評(píng)內(nèi)容本應(yīng)具備的參考價(jià)值與專業(yè)可信度,讓嚴(yán)謹(jǐn)?shù)募夹g(shù)對(duì)比淪為流量炒作的工具,是時(shí)候剎車了。(完)

       原文標(biāo)題 : 高考AI測(cè)評(píng)亂象頻現(xiàn),殘缺題干竟也能答出完整答案

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)