小芯片成為大隱患
- 來源:《第一財經(jīng)》YiMagazine smarty:if $article.tag?>
- 關(guān)鍵字:芯片,企業(yè),隱患 smarty:/if?>
- 發(fā)布時間:2022-03-17 21:44
想象一下,全球最大數(shù)據(jù)中心的服務(wù)器中,數(shù)百萬個計算機(jī)芯片存在幾乎無法檢測的罕見缺陷。找到問題所在的唯一方式便是將芯片投入到巨大的計算問題上,這在10年前是無法想象的。
隨著計算機(jī)芯片中的微小開關(guān)縮小到幾個原子的寬度,芯片的可靠性成為全球各大互聯(lián)網(wǎng)企業(yè)的另一個擔(dān)憂。過去一年,亞馬遜、Meta與Twitter等企業(yè)均發(fā)生了服務(wù)中斷的意外。
中斷的原因多種多樣,編程錯誤和網(wǎng)絡(luò)堵塞均在其列。但人們越來越擔(dān)憂,即使云計算網(wǎng)絡(luò)的規(guī)模與復(fù)雜性不斷提升,在最基本的層面上,它們?nèi)砸蕾囉谟嬎銠C(jī)芯片。如今這些芯片不太可靠,有時甚至變化莫測。
過去一年,Meta和Google的研究人員均發(fā)表了研究報告,描述了原因不明的計算機(jī)硬件故障。他們認(rèn)為,問題并不在軟件,而是在不同公司制造的計算機(jī)硬件的某處。對于這篇研究報告,Google拒絕發(fā)表評論,Meta也并未回應(yīng)。
專門研究計算機(jī)硬件檢測的斯坦福大學(xué)電機(jī)工程系教授蘇巴斯·米特拉(Subhasish Mitra)表示:“這些靜默錯誤本質(zhì)來自底層硬件。”人們愈加認(rèn)為不易察覺的所謂靜默錯誤就是引發(fā)制造缺陷的原因。
研究人員擔(dān)心出現(xiàn)罕見的缺陷意味著他們所面臨的是越來越大的計算問題,而這些問題將為系統(tǒng)帶來始料未及的壓力。
十多年前,運(yùn)行大型數(shù)據(jù)中心的企業(yè)便開始出現(xiàn)系統(tǒng)性問題的報告。2015年的工程期刊《電氣與電子工程師學(xué)會會刊》(IEEE Spectrum)中,一組在多倫多大學(xué)研究硬件可靠性的計算機(jī)科學(xué)家報告稱,在Google數(shù)百萬臺計算機(jī)里,每年有多達(dá)4%的計算機(jī)遭遇無法檢測的錯誤并因此意外關(guān)機(jī)。
在一個擁有數(shù)十億個晶體管的微處理器中,或在一個由數(shù)萬億個微型開關(guān)(每個微型開關(guān)可儲存一個1或0)組成的計算機(jī)內(nèi)存板中,即使最小的錯誤都會對一個每秒執(zhí)行數(shù)十億次計算的系統(tǒng)造成破壞。
半導(dǎo)體時代初期,工程師們擔(dān)心宇宙射線可能會偶爾翻轉(zhuǎn)單晶體管并改變計算結(jié)果。如今,他們憂心的是微型開關(guān)本身越來越不可靠。Meta的研究人員甚至認(rèn)為微型開關(guān)會變得更易受磨損,計算機(jī)內(nèi)存或處理器的使用壽命可能比以前普遍認(rèn)為的更短。
越來越多證據(jù)表明,新一代芯片的出現(xiàn)加劇了現(xiàn)有問題。芯片制造商美國AMD半導(dǎo)體公司2020年發(fā)布的一份報告顯示,當(dāng)時最先進(jìn)的計算機(jī)內(nèi)存芯片可靠性約比上一代低5.5倍。AMD并未對此報告作出評論。
目前,計算機(jī)設(shè)計師試圖在芯片中添加可自動檢測并糾正不良數(shù)據(jù)的特殊電路,以修復(fù)錯誤、處理硬件缺陷。人們一度認(rèn)為這種問題極其罕見,然而幾年前,Google的制作團(tuán)隊便開始報告一些極難診斷、令人抓狂的錯誤。報告中提到,計算錯誤會間歇性出現(xiàn),且難以復(fù)制。
一組研究人員力圖解決這一問題。2021年,他們公布的研究結(jié)果表明,由數(shù)百萬個處理器“內(nèi)核”組成的計算機(jī)系統(tǒng)支撐著龐大的企業(yè)數(shù)據(jù)中心,而這些數(shù)據(jù)中心所面臨的新故障大約是以下因素引發(fā)的:體積接近物理極限的微小晶體管;測檢不夠充分。
Google研究人員在他們所發(fā)表的題為《不算數(shù)的內(nèi)核》(Cores That Don’t Count)的研究報告中提到,要解決這一問題并不容易,他們已花費(fèi)了相當(dāng)于幾十年的工程,依然未能找到解法。
現(xiàn)代處理器芯片由數(shù)十個處理器內(nèi)核與可執(zhí)行分解任務(wù)的計算引擎組成。研究人員發(fā)現(xiàn),只有在特定情況下,一小部分內(nèi)核才會出現(xiàn)不準(zhǔn)確的結(jié)果。他們認(rèn)為這是一種偶然現(xiàn)象。某種情況下,只有在計算速度或溫度變化時,內(nèi)核才會出現(xiàn)錯誤。
Google表示,愈加復(fù)雜的處理器設(shè)計也是造成故障的其中一個關(guān)鍵原因。但工程師們也提到,晶體管的縮小、三維芯片的應(yīng)用、在特定情況下會產(chǎn)生錯誤的新式設(shè)計均為問題的起因。
2021年,在一份類似的報告中,Meta的一組研究人員提到,部分處理器雖能通過制造商的測試,卻會在真正投入使用時出現(xiàn)故障。
英特爾的高管表示,他們已熟知G oogle與Meta的研究報告,正在與兩家企業(yè)合作開發(fā)檢測與修正硬件錯誤的新方法。
英特爾數(shù)據(jù)平臺事業(yè)部副總裁布萊恩·喬根森(Bryan Jorgensen)表示,研究人員作出了準(zhǔn)確的判斷,他評價道:“他們對行業(yè)提出了正確的挑戰(zhàn)。”他提到,英特爾最近起步了一個為數(shù)據(jù)中心運(yùn)營方開發(fā)標(biāo)準(zhǔn)開源軟件的項目。針對芯片內(nèi)置電路所無法檢測的硬件錯誤,這種軟件可以做到檢索與修復(fù)。
關(guān)于如何應(yīng)對這一挑戰(zhàn),一個普遍的觀點(diǎn)是需要開發(fā)一些能主動監(jiān)測硬件錯誤的新型軟件,讓系統(tǒng)操作員能及時移除退化的硬件。對于為數(shù)據(jù)中心開發(fā)底層芯片質(zhì)量檢測軟件的初創(chuàng)企業(yè)而言,這是一次新機(jī)遇。
位于美國加利福尼亞州洛斯加托斯的TidalScale為企業(yè)開發(fā)專門的軟件,將硬件中斷的風(fēng)險最小化。公司首席執(zhí)行官加里·斯默登(Gary Smerdon)表示,TidalScale和其他企業(yè)一樣,都面臨著一個嚴(yán)峻的挑戰(zhàn)。在他看來,這就像在飛行途中更換飛機(jī)引擎一樣困難。
