測AI智商意義何在?
- 來源:瞭望東方周刊 smarty:if $article.tag?>
- 關(guān)鍵字:AI,智商,意義 smarty:/if?>
- 發(fā)布時(shí)間:2025-04-18 16:38
《瞭望東方周刊》記者陳融雪 編輯高雪梅
給AI測智商的嘗試,本質(zhì)上是一場人類認(rèn)知框架的自我審視。
AI能有多聰明?2024年末,OpenAI宣布ChatGPT-o3在ARC-AGI(通用人工智能抽象和推理語料庫)基準(zhǔn)測試中取得157分,與愛因斯坦、霍金等人類頂尖智力標(biāo)桿的推定智商比肩,這一消息迅速引爆輿論。
北京時(shí)間2025年2月18日,埃隆·馬斯克旗下人工智能公司xAI發(fā)布其最新人工智能模型Grok 3,稱它是“地球上最聰明的人工智能”。
然而,硅谷的慶功香檳尚未飲盡,另一組實(shí)驗(yàn)數(shù)據(jù)卻在2025年1月撕開認(rèn)知裂縫:2025年1月,非營利組織CAIS公布“人類終極考試”(HLE)測試結(jié)果,所有前沿AI在3000道跨學(xué)科難題前集體折戟,最高正確率不足10%。
給AI測智商的嘗試,本質(zhì)上是一場人類認(rèn)知框架的自我審視。面壁智能聯(lián)合創(chuàng)始人、首席科學(xué)家劉知遠(yuǎn)接受《瞭望東方周刊》采訪時(shí)表示,人類應(yīng)以更開放的心態(tài),重新理解智能的本質(zhì)——它既是解決問題的能力,也是提出問題的勇氣,更是連接不同生命形式的橋梁。
在他看來,AI的智力覺醒,不在于能否在既有框架內(nèi)超越人類,而在于能否打破“解題者”的宿命,像原始人發(fā)現(xiàn)火種般創(chuàng)造出全新的世界。
AI智力有幾歲?
從結(jié)繩記事到神經(jīng)網(wǎng)絡(luò),人類經(jīng)歷了漫長時(shí)間將智能外化;而今,我們正在見證智能脫離碳基載體后的第一次呼吸。
“和16歲孩子相比,其語言表達(dá)能力已達(dá)到160,語言推理歸納能力達(dá)145,這個(gè)水平在人類中不說絕頂聰明,也是萬里挑一。”2025年2月,中國科學(xué)院心理研究所超常兒童研究中心負(fù)責(zé)人張興利用韋氏兒童智力量表結(jié)合瑞文測試,給ChatGPT4、DeepSeek、kimi和豆包等當(dāng)紅人工智能大語言模型測智商后謹(jǐn)慎表示:“我不能客觀地給它們打分(評(píng)估綜合智商)。我能肯定的是,它們的學(xué)習(xí)能力相當(dāng)驚人。”
以ChatGPT 4為例,張興利團(tuán)隊(duì)讓它做瑞文測試圖形推理題時(shí)僅僅練習(xí)了兩次,就從“什么都不會(huì)”進(jìn)步到“做對(duì)12道題”。
“一個(gè)智商為100的5歲半孩子,60道題里差不多能做對(duì)16道題。但是,大語言模型應(yīng)該算幾歲?”張興利告訴《瞭望東方周刊》,所謂智商,指個(gè)體的標(biāo)準(zhǔn)化智力測試結(jié)果在同齡人中的相對(duì)水平。一般而言,智商平均值設(shè)為100,呈正態(tài)分布,如果說一個(gè)人智商為130,意味著他的智力水平高過 97.7%的同齡人。
美國臨床心理學(xué)家???middot;羅瓦寧(Eka Roivainen)把人工智能大語言模型當(dāng)成年人測了一下。在他看來,“ChatGPT幾乎是一個(gè)完美的考生,它具有值得稱贊的考試態(tài)度,不會(huì)表現(xiàn)出測試焦慮、注意力不集中或缺乏努力的情況”。
2023年3月21日,他用韋氏成人智力量表第三版給ChatGPT測智商,結(jié)果顯示,ChatGPT的口頭智商為155,高于構(gòu)成美國標(biāo)準(zhǔn)化樣本2450人的99.9%的考生。換言之,即使按成年人的標(biāo)準(zhǔn)看,ChatGPT的口頭智商已達(dá)到美國樣本人群的前1‰。
AI加速突破極限
人類一直在尋找一種適合量化AI聰明程度的評(píng)估體系。1950年,英國數(shù)學(xué)家艾倫·麥席森·圖靈提出通過提問和人類裁判的辦法,來判斷一臺(tái)計(jì)算機(jī)是否具有同人相稱的智力(以下簡稱“圖靈測試”)。但圖靈測試過于依賴語言交流的能力,忽略了智能的其他維度。
近年來,基準(zhǔn)測試成為AI能力評(píng)估的新趨勢。GSM8K(基于小學(xué)數(shù)學(xué)題數(shù)據(jù)集的測試)、HumanEval(用于評(píng)估大模型編程性能的測試)和MMLU(大規(guī)模多任務(wù)語言理解測試),不同的測試專注于不同的領(lǐng)域,但它們依舊存在局限性。比如,有些模型可能在訓(xùn)練中已經(jīng)對(duì)測試數(shù)據(jù)集進(jìn)行了“預(yù)習(xí)”,最后的高分并不代表真實(shí)的能力。那么,被數(shù)據(jù)“污染”的測試淪為套路,就失去了參考價(jià)值。
為破解傳統(tǒng)基準(zhǔn)測試的困境,非營利組織CAIS(人工智能安全中心)與數(shù)據(jù)巨頭Scale AI聯(lián)合推出名為“人類終極考試”的全新基準(zhǔn)測試,希望用復(fù)雜的題目“拷問”AI的極限。
據(jù)悉,“人類終極考試”有出題專家近千名,來自全球50個(gè)國家的500多個(gè)機(jī)構(gòu),涵蓋數(shù)學(xué)、人文、自然科學(xué)等多個(gè)領(lǐng)域。專家們提交了超7萬個(gè)問題,經(jīng)嚴(yán)格篩選后保留下3000個(gè)高難度問題。
2025年1月公布的測試結(jié)果顯示,當(dāng)時(shí)所有的前沿大模型(如GPT-4o、Claude 3.5 Sonnet、Gemini系列等)準(zhǔn)確率均未超過10%,且普遍存在“過度自信”現(xiàn)象。此外,大模型還存在跨學(xué)科整合能力不足,難以同時(shí)處理文本、圖像和專業(yè)術(shù)語,回答“古希臘神話中英雄伊阿宋的曾祖父是誰”這類問題很吃力。
但是,AI攻克基準(zhǔn)測試的速度將遠(yuǎn)超預(yù)期。
比如,在評(píng)估高級(jí)數(shù)學(xué)推理和創(chuàng)造性解題能力的MATH測試中,前沿大模型的解題正確率從10%到90%僅用了3年。CAIS預(yù)測,到2025年底,AI在“人類終極考試”上可能突破50%準(zhǔn)確率。
“大模型的能力密度隨時(shí)間呈指數(shù)級(jí)增長,2023年以來能力密度約每3.3個(gè)月(約100天)翻一倍——這是我們提出的大模型密度定律。”劉知遠(yuǎn)表示,作為AI 時(shí)代的三大核心引擎,電力、算力和智力的能力均在加速倍增,我們即將迎來一個(gè)重要且意義深遠(yuǎn)的智能革命時(shí)代。
測量悖論
當(dāng)前,各路專家們給AI測試智商主要有三類路徑。第一類是沿用人類智力量表,如韋氏智力量表、門薩題庫、瑞文測試等,側(cè)重邏輯推理與模式識(shí)別;第二類是專業(yè)基準(zhǔn)測試,如大規(guī)模多任務(wù)語言理解測試、“人類終極考試”,強(qiáng)調(diào)跨領(lǐng)域知識(shí)整合;第三類是行為模擬評(píng)估,通過圖靈測試變體考察交互能力。
然而,這些方法均難免陷入“測量悖論”。
“這些主流評(píng)價(jià)標(biāo)準(zhǔn)是用人類能力維度對(duì)AI進(jìn)行評(píng)價(jià),盡可能模擬對(duì)標(biāo)人類在語義理解、視覺識(shí)別、語言表達(dá)、通用能力等方面的智能水平標(biāo)準(zhǔn)。但是,鑒于人類智能的復(fù)雜性,對(duì)人類能力全然建模是不可能的。”劉知遠(yuǎn)解釋道,人類大腦與AI之間有著顯著差異——人類大腦擁有的神經(jīng)元約為860億個(gè),其復(fù)雜的突觸連接數(shù)達(dá)100萬億。相對(duì)而言,即便是擁有1.76萬億參數(shù)的GPT-4,其神經(jīng)網(wǎng)絡(luò)的復(fù)雜程度亦遠(yuǎn)不及人類大腦。
張興利表示,智商測試誕生于1905年,法國心理學(xué)家比奈(Binet.Alfred)和助手西蒙(Theodore Simon)為了把特殊需求兒童和一般兒童區(qū)分開來,制定了比奈—西蒙智力量表。120年來,面對(duì)不同地域和不同時(shí)代等文化差異,學(xué)界不斷修訂和研發(fā)出多種測試工具,力圖對(duì)個(gè)體智商更客觀地開展評(píng)估。
給AI測智商,靠譜嗎?目前,已有多名專家對(duì)此表示質(zhì)疑。
牛津大學(xué)研究技術(shù)與監(jiān)管的研究員桑德拉·瓦赫特 (Sandra Wachter) 在接受 TechCrunch(一家美國科技類博客媒體)采訪時(shí)表示,用人類衡量標(biāo)準(zhǔn)來描述人工智能的能力或進(jìn)步非常誘人,但這就好像是在比較蘋果和橘子。汽車比人類跑得快,潛水艇比人類潛得深,并不意味著汽車或潛水艇超越了人類智力。
倫敦國王學(xué)院研究員邁克·庫克(Mike Cook)表示,拿人工智能和人類作對(duì)比不合理也不公平。
對(duì)此,劉知遠(yuǎn)表示,相比評(píng)測集(用于評(píng)估人工智能模型性能的數(shù)據(jù)集)的評(píng)價(jià)成績,更值得關(guān)注的是,大模型在我們工作生活中的應(yīng)用程度和在各個(gè)行業(yè)的滲透程度。
跳出思維窠臼
智力的本質(zhì)仍是未解之謎。愛因斯坦大腦解剖顯示,其頂葉皮層神經(jīng)元密度高于常人,但基因研究未發(fā)現(xiàn)“智商決定簇”。這提示智力可能是遺傳、環(huán)境、文化共同作用的涌現(xiàn)現(xiàn)象。
“人類終極考試測試中,AI慘敗反而令人安心。”CAIS創(chuàng)始人丹·亨德里克斯表示,“當(dāng)機(jī)器在結(jié)構(gòu)化問題中碾壓人類時(shí),我們更需要珍視那些‘低效’卻珍貴的能力:在信息不全時(shí)果斷行動(dòng),在規(guī)則模糊時(shí)堅(jiān)守底線,在絕望之境中創(chuàng)造希望。”
馬斯克預(yù)言,在2025年底,AI的智力水平將超越人類個(gè)體,2027年將超過全人類。劉知遠(yuǎn)也開始想象AGI(通用人工智能)到來的那一刻——“回顧歷史,信息革命歷經(jīng)了50個(gè)摩爾定律的倍增周期,歷時(shí)80年。而密度定律的倍增周期僅為3.3個(gè)月,按照這個(gè)標(biāo)準(zhǔn),從2020年開始,僅用13年左右就可完成智能革命的周期。”
在劉知遠(yuǎn)看來,真正的智能革命或許正蟄伏在AI答錯(cuò)的題目里——那些涉及隱喻解碼的詩歌賞析、需要共情參與的道德抉擇,以及必須突破物理法則的科幻構(gòu)思。
“信息革命剛開始的時(shí)候,IBM 的創(chuàng)始人沃森曾認(rèn)為,五臺(tái)主機(jī)就可以滿足全世界的計(jì)算需求。但今天,我們看到全球有數(shù)十億、上百億的計(jì)算設(shè)備在服務(wù)社會(huì)。”劉知遠(yuǎn)表示,智能革命也要走一條類似之路,不斷提高能力密度,降低計(jì)算成本,更加普惠。
顯然,面對(duì)AI指數(shù)級(jí)進(jìn)化,人類需跳出“零和博弈”思維,構(gòu)建新型協(xié)作框架。
