人工智能面臨測評挑戰(zhàn)

來源:《第一財經(jīng)》YiMagazine
關(guān)鍵字:人工智能,測評,挑戰(zhàn)
發(fā)布時間:2024-06-30 16:12

　　翻譯／Claire

　　ChatGPT、Gemini和Claude等先進的人工智能工具存在一個通病，即我們并不能準確判斷其智能程度。

　　這是因為，與汽車、藥品或嬰兒配方奶粉等產(chǎn)品不同，人工智能模型在上市前不需要送檢。AI聊天機器人沒有經(jīng)過任何標準的認證，也很少有第三方獨立機構(gòu)對它們做嚴格測試。

　　相反，我們只能聽信人工智能公司的說法，而后者經(jīng)常用諸如“改進了哪些功能”等含糊不清的說法來描述不同版本AI模型之間的差異。盡管現(xiàn)有的一些測試體系被用于評估這些模型在數(shù)學(xué)或邏輯推理方面的能力，很多專家對測試結(jié)果的可靠性仍有所懷疑。

　　這聽起來像是個小小的抱怨，但我確信，缺乏一個針對AI系統(tǒng)的良好的測試評估標準，是AI發(fā)展道路上的一個重大問題。

　　首先，如果沒有關(guān)于人工智能產(chǎn)品的可靠信息，人們怎么可能知道如何使用它們？

　　我記不清過去一年有多少次朋友或同事問我，他們應(yīng)該用哪款人工智能工具來完成某項任務(wù)。我通常只能聳聳肩表示幫不上忙。即使專職撰寫人工智能的相關(guān)文章，并一直在測試新模型，我也很難準確追蹤各種人工智能產(chǎn)品的相對優(yōu)勢或劣勢。

　　大多數(shù)技術(shù)公司不會發(fā)布其人工智能產(chǎn)品的詳細使用說明，且模型仍在迅速迭代。某個前一天還困于某項任務(wù)的聊天機器人，可能第二天就會奇跡般地變得很擅長它。缺少高質(zhì)量的人工智能測評標準，人們就很難知道人工智能哪些功能的進步速度快于預(yù)期，或者哪些人工智能產(chǎn)品會危害人類社會。

　　多年來，衡量人工智能的最流行方法是圖靈測試，這是數(shù)學(xué)家艾倫·圖靈（Alan Turing）于1950年提出的一種方法—如果一臺機器能夠與人類展開對話而不被人類辨別出其機器身份，就認為是通過了測試。但人工智能發(fā)展至今，已可以輕松通過圖靈測試，研究人員必須研發(fā)出一種難度更高的新的測評方法。

　　如今最常見的測評手段是大規(guī)模多任務(wù)語言理解（MMLU）測試系統(tǒng)，它的數(shù)據(jù)集誕生于2020年，由大約1.6萬道選擇題組成，考查范圍涵蓋數(shù)學(xué)、法律和醫(yī)學(xué)等數(shù)十個學(xué)科領(lǐng)域。它算是一種通用的人工智能測評標準—聊天機器人答對的題目越多，它就越智能。

　　MMLU現(xiàn)已成為人工智能公司爭奪市場主導(dǎo)地位的黃金標準。今年早些時候，Google推出其人工智能模型Gemini Ultra時就曾炫耀其MMLU得分率為90%，是有史以來的最高分。

　　一位曾幫助開發(fā)MMLU數(shù)據(jù)集的人工智能安全研究員丹·亨德里克斯（Dan Hendrycks）告訴我，MMLU“可能還有一兩年保質(zhì)期”，但它很快就會派不上用場。人工智能系統(tǒng)正變得越來越智能，現(xiàn)有的測評體系即將無法滿足現(xiàn)實需求，設(shè)計新的評測體系也變得越來越難。

　　另外出現(xiàn)的數(shù)十種其他測試手段，比如TruthfulQA和HellaSwag等，也只能測出人工智能系統(tǒng)的一小部分能力。

　　而且這些測評體系都無法回答許多用戶提出的一些主觀問題，比如：跟這個機器人聊天好玩嗎？它是更適合流程固定的日常辦公還是創(chuàng)意類工作？它的對話安全措施有多嚴格？

　　測試本身也可能存在問題。幾位研究人員曾提醒過我，使用MMLU等基準測試評估人工智能的執(zhí)行過程因公司而異，各類模型的得分可能無法直接橫向比較，此外其中還暗含“數(shù)據(jù)污染”隱患—若基準測試的問題和答案包含在人工智能模型的訓(xùn)練數(shù)據(jù)中，本質(zhì)上是在允許它作弊。

　　沒有獨立的測評或?qū)徍谁h(huán)節(jié)，意味著AI公司實際上是在給自己批改作業(yè)。簡而言之，人工智能的測試評估目前是一團亂麻。一堆草率的測試、并不相融的對比和自我炒作，讓用戶、監(jiān)管機構(gòu)和開發(fā)者全都找不到頭緒。

　　專注于人工智能的風(fēng)險投資公司Air Street Capital的投資者內(nèi)森·貝納什（Nathan Benaich）表示，“盡管看起來很科學(xué)，但大多數(shù)開發(fā)者是在根據(jù)感覺或直覺來判斷模型能力的。目前這也許還可行，但隨著大模型的能力和社會相關(guān)性越來越強，這樣做就不夠可靠了。”

　　一個可行方案是公共力量與私人力量聯(lián)手解決這一問題。政府有能力，也應(yīng)該建構(gòu)有效的人工智能測試標準和平臺，以評估人工智能模型的真實能力和安全風(fēng)險。政府還應(yīng)給旨在研發(fā)高質(zhì)量的人工智能測試評估新標準的研究項目撥款。

　　去年，斯坦福大學(xué)推出了一項新測試，是使用人工而非自動化系統(tǒng)測試來判定AI模型能力。加州大學(xué)伯克利分校則推出了開放平臺Chatbot Arena，會隨機選取兩個模型匿名對決，并要求用戶投票，表達他們對模型性能的偏好。由此生成的模型排名結(jié)果十分受歡迎。

　　人工智能公司也應(yīng)該提供幫助，承諾與第三方評估人員和審核人員合作測試模型，允許更多研究員使用新模型，并提高模型迭代的信息透明度。

　　總之，我們不能僅靠感覺評估AI技術(shù)。只有建立起更高質(zhì)量的測評體系，我們才能有效利用它們，并知道是該慶賀還是恐懼它們的某項進步。

關(guān)注讀覽天下微信， 100萬篇深度好文，等你來看……

立即購買本期雜志

查看本期更多內(nèi)容

亚洲,欧美,中文字幕,小婕子伦流澡到高潮视频,无码成人aaaaa毛片,性少妇japanesexxxx,山外人精品影院

人工智能面臨測評挑戰(zhàn)