亚洲,欧美,中文字幕,小婕子伦流澡到高潮视频,无码成人aaaaa毛片,性少妇japanesexxxx,山外人精品影院

AI的“黑匣子”不再那么神秘了

  翻譯/萬志文

  當(dāng)今領(lǐng)先的人工智能系統(tǒng)有一個比較奇怪且令人不安的地方:沒有人真正知道這些系統(tǒng)是如何運作的,連一手締造它們的人也不知 道。

  這是因為大語言模型,即驅(qū)動ChatGPT和其他熱門聊天機(jī)器人的人工智能系統(tǒng),并不像傳統(tǒng)的計算機(jī)程序那樣是由人類工程師逐行編程得來的。這些AI系統(tǒng)基本上是靠自學(xué),它們會吸納大量的數(shù)據(jù),識別語言中的模式和關(guān)系,然后利用這些知識來預(yù)測信息序列中的下一個單詞。

  以這種方式構(gòu)建AI系統(tǒng)的一個后果是,人們很難通過逆向工程或通過識別代碼中的特定錯誤來修復(fù)系統(tǒng)出現(xiàn)的問題?,F(xiàn)在,如果用戶輸入“美國哪個城市的食物最好吃?”而聊天機(jī)器人的回答是“東京”,我們無法真正理解模型為什么會出現(xiàn)這樣的錯誤判斷,也無法理解下一個問同樣問題的人又為什么有可能得到不同的答案。

  大語言模型的難以理解不僅是個煩惱,還是一些研究人員擔(dān)心強(qiáng)大的人工智能系統(tǒng)最終可能威脅到人類的主要原因。畢竟,如果我們不了解這些模型內(nèi)部發(fā)生了什么,又怎么能知道它們是否會被用來制造新型生物武器、幫助政治宣傳或編寫惡意計算機(jī)代碼來展開網(wǎng)絡(luò)攻擊?如果強(qiáng)大的人工智能系統(tǒng)開始不服從或欺騙人類,而我們連是什么導(dǎo)致了這種行為都不清楚,又如何能阻擋它們呢?

  為了解決這些問題,一個被稱為“機(jī)械可解釋性”(mechanistic interpretability)的AI研究分支花了數(shù)年時間,試圖探究大語言模型的內(nèi)部運行機(jī)制。這項工作進(jìn)展緩慢,且必須是漸進(jìn)式的。

  此外,越來越多的人開始認(rèn)為人工智能系統(tǒng)并不會帶來很大風(fēng)險。5月,ChatGPT的開發(fā)商OpenAI的兩名高級安全研究人員離職,原因是在針對確保產(chǎn)品安全方面是否做得充分的問題上,他們與公司高管的觀點并不一致。

  但與此同時,人工智能公司Anthropic的一個研究團(tuán)隊宣布了一項他們所說的重大突破—他們希望這項成果會讓我們能夠更多地了解人工智能語言模型具體是如何運作的,并讓我們能夠防止它們變得有害。該團(tuán)隊在一篇名為《大語言模型的思維導(dǎo)圖》(Mappingthe Mind of a Large Language Model)的文章中總結(jié)了他們的研究成果。

  他們研究了Anthropic的一個人工智能模型—Claude 3 Sonnet(該公司的Claude 3語言模型的一個版本),使用了一種被稱為“字典學(xué)習(xí)”的技術(shù),來揭示Claude被要求談?wù)撃承┰掝}時,其“神經(jīng)元”組合(人工智能模型中的數(shù)學(xué)單元)是如何被激活的。他們發(fā)現(xiàn)了大約1000萬個范式,稱之為“特征”。

  例如,他們發(fā)現(xiàn),每當(dāng)Claude被要求談?wù)撆f金山時,一個特征就會被激活。每當(dāng)提到免疫學(xué)或特定科學(xué)術(shù)語(如化學(xué)元素鋰)等話題時,別的特征就會被激活。有些特征與更抽象的概念(比如欺騙或性別偏見)有關(guān)。研究人員還發(fā)現(xiàn),手動激活或關(guān)閉某些

  特征可能會改變?nèi)斯ぶ悄芟到y(tǒng)的行為方式,甚至可能讓系統(tǒng)打破自己的規(guī)則。例如,他們強(qiáng)力激活一個與諂媚相關(guān)的特征,Claude會對用戶“說”出文辭華麗、夸張的贊美,即便在不合時宜的場景中也會這么表達(dá)。

  Anthropic人工智能可解釋性研究團(tuán)隊的負(fù)責(zé)人克里斯·奧拉(Chris Olah)在接受采訪時表示,這些發(fā)現(xiàn)可以讓人工智能公司更有效地控制它們的模型。

  “我們正在發(fā)現(xiàn)一些特征,這些特征可能有助于消解人們對偏見、安全風(fēng)險和自主性的擔(dān)憂。”他說,“我感到非常興奮,因為我們也許能夠把這些人們爭論不休的問題變成可以更具建設(shè)性的討論內(nèi)容。”

  其他研究人員在中小型語言模型中也發(fā)現(xiàn)了類似的現(xiàn)象。但Anthropic的團(tuán)隊是最早將這些技術(shù)應(yīng)用于大模型的團(tuán)隊之一。

  麻省理工學(xué)院計算機(jī)科學(xué)副教授雅各布·安德烈亞斯(Jacob A ndreas)在看了Anthropic的研究總結(jié)后表示,這是一個充滿希望的信號,表明大型模型的可解釋性是有可能實現(xiàn)的。“就像了解人類身體運轉(zhuǎn)的基本原理有助于我們治療疾病一樣,了解這些模型如何運作既能讓我們及時發(fā)現(xiàn)問題,也有助于為控制它們而開發(fā)出更好的工具。”他指出。

  但奧拉還警告說,盡管這些新發(fā)現(xiàn)代表了重要的進(jìn)展,人工智能的可解釋性仍遠(yuǎn)未解 決。

  他認(rèn)為,最大的人工智能模型可能包含數(shù)十億個代表不同概念的特征,比Anthropic團(tuán)隊聲稱發(fā)現(xiàn)的約10 0 0萬個特征要多得多。要把這些特征全找出來需要巨大的算力,且成本高昂,只有那些財力雄厚的人工智能公司才有可能實現(xiàn)。即使研究人員能夠識別大模型中的每一個特征,仍然需要獲取更多的信息來完全理解這些模型的內(nèi)部運作原理。此外,也無法保證人工智能公司愿意采取行動來提升它們的系統(tǒng)安全性。

  不過,奧拉表示,即使只是稍微撬開這些人工智能的黑匣子,也能讓企業(yè)、監(jiān)管機(jī)構(gòu)和公眾對這些人工智能系統(tǒng)的可控性更有信 心。

  “我們面前還有很多其他的挑戰(zhàn),但看起來最可怕的事情似乎不再是前進(jìn)的障礙。”他說。

關(guān)注讀覽天下微信, 100萬篇深度好文, 等你來看……