AGI 或許會成為人類歷史上最重要的技術發展之一,但遺憾的是,這個術語的定義一直模糊不清。
近日,一篇由多位名校學者共同創作的學術論文探討了 AGI 的定義。他們基于 Cattell-Horn-Carroll(CHC) 理論,提出了一個可量化的框架,將 AGI 分解為十個核心認知領域,包括推理、記憶和感知,并調整了現有的人類心理測量方法以評估人工智能系統。
該框架揭示了當代模型中高度“參差不齊”的認知特征。盡管當前的人工智能系統在知識密集型領域表現出色,但它們在基礎認知機制方面存在嚴重缺陷,尤其是在長期記憶存儲方面。
本文作者來自加州大學伯克利分校、康奈爾大學、卡耐基梅隆大學等知名院校。
可量化的評估框架
研究框架包含十個核心認知組件,源自 CHC 的廣泛能力,并按 10% 的權重分配,以優先考慮廣度并涵蓋主要的認知領域:
- 常識(K)
- 閱讀和寫作能力(RW)
- 數學能力(M)
- 推理能力(R)
- 工作記憶(WM)
- 長期記憶存儲(MS)
- 長期記憶檢索(MR)
- 視覺處理(V)
- 聽覺處理(A)
- 速度(S)
這種操作化提供了整體和多模式(文本、視覺、聽覺)的評估,作可以查明當前人工智能系統的優勢和嚴重弱點。
更重要的是,該定義關注的是受過良好教育的個體通常具備的能力,而不是所有受過良好教育的個體知識和技能的超人集合。
基礎認知缺陷
該框架揭示,當代人工智能系統表現出高度不均衡或“參差不齊”的認知特征。雖然模型在利用大量訓練數據的領域(例如常識(K)、閱讀和寫作(RW)以及數學能力(M))表現出很高的熟練程度,但它們同時在基礎認知機制方面存在嚴重缺陷。
這種不平衡的發展凸顯了阻礙通用人工智能(AGI)發展的具體瓶頸。長期記憶存儲或許是最顯著的瓶頸,在當前模型中得分接近 0%。
同樣,視覺推理能力的缺陷也限制了人工智能代理與復雜數字環境交互的能力。
當前人工智能能力參差不齊,常常導致“能力扭曲”,即利用某些領域的優勢來彌補其他領域的嚴重弱點。這些變通方法掩蓋了潛在的局限性,并可能造成一種脆弱的通用能力幻覺。
某些具有戰略意義的人工智能可能在 AGI 之前或之后出現。一些特別值得關注的類型有包括:多階網絡活動 AI、自我維持 AI、超級智能 AI 等等。
研究人員表示,AGI 的定義是:一種能夠達到或超過受過良好教育的成年人的認知多樣性和熟練程度的人工智能。
不同于 OpenAI 和微軟對于 AGI 的定義,該論文對 AGI 的定義是人類水平的 AI,而不是具有經濟價值的 AI,也不是經濟水平的 AI。
參考資料:
https://arxiv.org/abs/2510.18212