人工智能技術(shù)在網(wǎng)絡(luò)釣魚攻擊檢測中的應(yīng)用研究
- 來源:互聯(lián)網(wǎng)周刊 smarty:if $article.tag?>
- 關(guān)鍵字:網(wǎng)絡(luò)釣魚攻擊,機(jī)器學(xué)習(xí),深度學(xué)習(xí) smarty:/if?>
- 發(fā)布時間:2025-05-09 21:49
文/康樂 尚杰 盛浩月通信作者 奇安信科技集團(tuán)股份有限公司
摘要:隨著信息技術(shù)的快速發(fā)展,網(wǎng)絡(luò)釣魚攻擊已經(jīng)成為信息安全領(lǐng)域的主要威脅,傳統(tǒng)檢測手段難以應(yīng)對其多樣化、隱蔽化、快速變異等特性。本文聚焦人工智能技術(shù)在網(wǎng)絡(luò)釣魚攻擊檢測中的應(yīng)用,探討基于特征提取的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然語言處理、行為分析等方法的應(yīng)用。研究表明,人工智能技術(shù)在提升網(wǎng)絡(luò)釣魚檢測準(zhǔn)確性與效率上潛力巨大,能為網(wǎng)絡(luò)安全提供有力保障。
關(guān)鍵詞:人工智能技術(shù);網(wǎng)絡(luò)釣魚攻擊;機(jī)器學(xué)習(xí);深度學(xué)習(xí)
引言
網(wǎng)絡(luò)釣魚攻擊是當(dāng)今信息安全領(lǐng)域中最常見的威脅之一。攻擊者通過偽造可信網(wǎng)站、電子郵件等方式,誘騙用戶泄露敏感信息,這不僅對個人隱私構(gòu)成嚴(yán)重威脅,還可能造成企業(yè)數(shù)據(jù)泄露和金融損失。近年來,隨著技術(shù)的不斷進(jìn)步,網(wǎng)絡(luò)釣魚攻擊的形式變得更加多樣化和隱蔽化,傳統(tǒng)的基于規(guī)則的檢測方法已難以應(yīng)對新型攻擊[1]。
在此背景下,人工智能技術(shù)憑借其在海量數(shù)據(jù)處理、模式識別和異常檢測中的強(qiáng)大能力,為網(wǎng)絡(luò)釣魚攻擊檢測提供了新的解決思路。本文將圍繞人工智能技術(shù)在網(wǎng)絡(luò)釣魚攻擊檢測中的應(yīng)用,以及如何通過基于深度學(xué)習(xí)的網(wǎng)絡(luò)釣魚檢攻擊測方法處理相關(guān)安全威脅開展研究。
1. 網(wǎng)絡(luò)釣魚攻擊的現(xiàn)狀
當(dāng)前,網(wǎng)絡(luò)釣魚攻擊正滲透到人們生產(chǎn)生活的方方面面?!痘趫蟾娣治龅?024年全球網(wǎng)絡(luò)安全趨勢研究》顯示,在對21份全球權(quán)威報告進(jìn)行綜合剖析后發(fā)現(xiàn),網(wǎng)絡(luò)釣魚這一關(guān)鍵詞的出現(xiàn)比例高達(dá)17.28%(如圖1所示),凸顯了其在網(wǎng)絡(luò)安全領(lǐng)域的高發(fā)性[1]。
隨著ChatGPT、DeepSeek等先進(jìn)大語言模型的發(fā)展,以及移動設(shè)備、二維碼和深度偽造語音技術(shù)的普及,網(wǎng)絡(luò)釣魚誘餌的欺騙性與日俱增。通過生成高度逼真的文本、語音和圖像內(nèi)容,釣魚郵件攻擊具備了強(qiáng)大的欺騙性。
2. 網(wǎng)絡(luò)釣魚攻擊的特點與挑戰(zhàn)
2.1 網(wǎng)絡(luò)釣魚攻擊的特點
2.1.1 偽裝性強(qiáng)
釣魚網(wǎng)站與釣魚郵件在外觀設(shè)計上與合法的網(wǎng)站及郵件極為相似,常令用戶難以辨別真?zhèn)巍@?,涉及中國香港郵政及銀行系統(tǒng)的“釣魚”詐騙案中,受害人均收到相關(guān)虛假電子郵件或手機(jī)短信,訛稱有包裹無法派遞要求支付郵費(fèi),或銀行賬戶有異樣,要求補(bǔ)充信用卡或網(wǎng)上銀行密碼等資料,乘機(jī)騙取金錢,近百人受騙,合計損失近300萬港元[2]。
2.1.2 多樣化的媒介
網(wǎng)絡(luò)釣魚攻擊廣泛借助各類通信平臺傳播。郵件是常見方式,攻擊者發(fā)送偽裝成官方通知、客服反饋或好友求助的郵件;短信也常被利用,以中獎信息、賬戶異常提醒等誘騙用戶;在社交媒體平臺上,虛假的促銷活動鏈接或好友推薦信息也可能隱藏釣魚陷阱;即時通信(IM)應(yīng)用中,偽裝成群組消息或好友私聊的釣魚信息也常出現(xiàn),全面滲透用戶的網(wǎng)絡(luò)社交空間[3]。
2.1.3 攻擊規(guī)模廣
釣魚攻擊技術(shù)門檻和成本低,攻擊者借助自動化工具批量生成釣魚內(nèi)容,并大量傳播。例如,Bleeping Computer網(wǎng)站披露了一項大規(guī)模網(wǎng)絡(luò)釣魚活動,針對這一事件,一家專注于人工智能的網(wǎng)絡(luò)安全公司PIXM對其展開研究,研究人員未經(jīng)身份驗證,成功訪問了網(wǎng)絡(luò)釣魚活動統(tǒng)計頁面,經(jīng)過對數(shù)據(jù)信息分析后發(fā)現(xiàn),在2021年,有270萬用戶訪問了其中一個網(wǎng)絡(luò)釣魚門戶,這個數(shù)字在2022年上升到850萬,側(cè)面反映了釣魚活動在大規(guī)模增長[4]。
2.1.4 快速變異
攻擊者為躲避檢測,動態(tài)生成釣魚頁面,變換域名、統(tǒng)一資源定位符(uniform resource locator,URL)結(jié)構(gòu)、頁面內(nèi)容和攻擊手法。例如,采用域名系統(tǒng)(domain name system,DNS)解析快速切換域名指向,傳統(tǒng)黑名單難以追蹤;利用代碼混淆技術(shù)改變頁面腳本,給網(wǎng)絡(luò)安全防護(hù)帶來極大挑戰(zhàn)。
2.2 網(wǎng)絡(luò)釣魚攻擊檢測的挑戰(zhàn)
2.2.1 高誤報率
傳統(tǒng)檢測方法,如基于規(guī)則的過濾和簽名匹配,往往無法準(zhǔn)確區(qū)分網(wǎng)絡(luò)釣魚攻擊的內(nèi)容和正常內(nèi)容,導(dǎo)致大量的誤報。
2.2.2 數(shù)據(jù)多樣
網(wǎng)絡(luò)釣魚攻擊的形式和內(nèi)容極具多樣性,包括使用不同的語言、內(nèi)容、URL和偽裝手段等,難以制定統(tǒng)一且有效的檢測規(guī)則。
2.2.3 實時性要求
網(wǎng)絡(luò)釣魚攻擊具有高度的時效性,一旦發(fā)現(xiàn)威脅,須迅速采取措施進(jìn)行處置。
2.2.4 對抗性攻擊
隨著網(wǎng)絡(luò)釣魚攻擊技術(shù)的不斷發(fā)展,攻擊者開始利用對抗樣本技術(shù)來繞過檢測系統(tǒng),影響檢測系統(tǒng)的有效性。
3. 人工智能技術(shù)的網(wǎng)絡(luò)釣魚攻擊檢測方法
3.1 基于特征提取的機(jī)器學(xué)習(xí)方法
傳統(tǒng)機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)釣魚攻擊檢測中依賴人工定義特征。例如,在URL特征上,會考量URL長度,通常的網(wǎng)絡(luò)釣魚攻擊URL較長且復(fù)雜[5],包含大量隨機(jī)字符或疑似惡意的參數(shù);域名復(fù)雜度也是關(guān)鍵因素,如是否存在二級域名過多、域名與知名品牌相似但存在細(xì)微拼寫差異等情況。
在網(wǎng)頁內(nèi)容特征上,會檢查是否有常見的網(wǎng)絡(luò)釣魚攻擊關(guān)鍵詞,如“立即登錄”“限時免費(fèi)”“賬戶凍結(jié)需緊急處理”等具有誘導(dǎo)性和緊迫感的詞匯,以及是否存在可疑的外部鏈接。這些人工定義的特征構(gòu)成訓(xùn)練數(shù)據(jù),輸入分類器中,常見的如支持向量機(jī)(support vector machine,SVM)、決策樹或隨機(jī)森林等。
3.2 深度學(xué)習(xí)方法
深度學(xué)習(xí)是人工智能技術(shù)的重要分支,能夠從海量數(shù)據(jù)中提取高維特征,減少人工干預(yù)。在網(wǎng)絡(luò)釣魚攻擊檢測中,深度學(xué)習(xí)方法具有顯著的優(yōu)勢。常用的模型包括卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)和基于自注意力機(jī)制的深度學(xué)習(xí)模型Transformer三種。其中,CNN用于提取郵件內(nèi)容、URL或頁面截圖的視覺特征。通過卷積運(yùn)算和池化操作,捕捉圖像中的局部特征,如顏色、紋理等,從而實現(xiàn)對釣魚頁面的有效識別。RNN用于處理時間序列數(shù)據(jù),如URL字符流和郵件內(nèi)容的語言模式。RNN通過循環(huán)連接的方式,捕捉數(shù)據(jù)中的時序依賴關(guān)系,從而對釣魚郵件進(jìn)行準(zhǔn)確分類。Transformer模型則能夠結(jié)合自然語言處理技術(shù),理解郵件或頁面中的語義信息。該模型通過自注意力機(jī)制和位置編碼,捕捉文本的全局依賴關(guān)系,實現(xiàn)對釣魚文本的深入理解。
3.3 自然語言處理
自然語言處理(natural language processing,NLP)技術(shù)在網(wǎng)絡(luò)釣魚攻擊檢測中發(fā)揮著關(guān)鍵作用,可深入分析文本的語義結(jié)構(gòu)和語言特征。在關(guān)鍵詞分析方面,除了常見的“緊急”“賬號凍結(jié)”等詞匯外,還會關(guān)注如“安全驗證失敗”“系統(tǒng)升級需重新登錄”等關(guān)鍵詞組合。同時,檢測語法和拼寫錯誤也是重要環(huán)節(jié)。釣魚郵件因制作倉促或故意偽裝,可能存在較多語法錯誤、拼寫不規(guī)范或詞匯使用不當(dāng)?shù)那闆r。此外,NLP技術(shù)還能分析文本的情感傾向和語言風(fēng)格,釣魚文本通常帶有較強(qiáng)的緊迫感或誘導(dǎo)性,通過與正常郵件的語言風(fēng)格對比,可有效識別潛在的欺騙行為,為判斷郵件是否為釣魚內(nèi)容提供有力依據(jù)。
3.4 行為分析
行為分析結(jié)合用戶的歷史行為數(shù)據(jù)和正常操作習(xí)慣模型,利用機(jī)器學(xué)習(xí)算法建立異常行為檢測模型,如使用聚類分析將用戶行為劃分為不同的簇,當(dāng)新的行為數(shù)據(jù)偏離正常簇時,即可判定為異常行為,發(fā)現(xiàn)并防范網(wǎng)絡(luò)釣魚攻擊。例如,正常瀏覽網(wǎng)頁時,對不同頁面的訪問時間通常呈現(xiàn)規(guī)律分布,在遭受網(wǎng)絡(luò)釣魚攻擊時,可能會在某個可疑頁面上停留過長時間或頻繁點擊來自未知來源的鏈接[6]。對于攻擊者行為,重復(fù)訪問某一URL可能是其在測試釣魚頁面的有效性或準(zhǔn)備發(fā)動大規(guī)模攻擊的前奏;點擊率異常高的鏈接往往是網(wǎng)絡(luò)釣魚攻擊的重要線索,表明該鏈接可能被大量用戶誤點擊或受到惡意推廣。
4. 人工智能技術(shù)進(jìn)行網(wǎng)絡(luò)釣魚檢測的流程
4.1 數(shù)據(jù)收集與預(yù)處理
數(shù)據(jù)收集是構(gòu)建有效網(wǎng)絡(luò)釣魚攻擊檢測系統(tǒng)的基礎(chǔ)。需要廣泛獲取相關(guān)的多源數(shù)據(jù),包括釣魚網(wǎng)站的URL、網(wǎng)頁內(nèi)容、源代碼、交互記錄以及相關(guān)的流量數(shù)據(jù)等[7]。
收集到的數(shù)據(jù)通常存在噪聲和不完整性,需要進(jìn)行清洗和預(yù)處理。清洗過程包括去除無關(guān)信息,這些信息可能干擾后續(xù)的特征提取和模型訓(xùn)練。同時,對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,將文本數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的編碼格式,并進(jìn)行歸一化操作,使不同特征的數(shù)據(jù)統(tǒng)一在同一量綱下,從而確保模型訓(xùn)練的穩(wěn)定性和準(zhǔn)確性。
4.2 特征提取
從收集到的網(wǎng)頁數(shù)據(jù)中提取出有助于判斷是否為釣魚網(wǎng)站的特征。這些特征可能包括:
(1)URL特征。如URL中是否包含可疑的域名、異常字符等。
(2)網(wǎng)頁內(nèi)容特征。網(wǎng)頁的文本內(nèi)容是否包含網(wǎng)絡(luò)釣魚攻擊常見的關(guān)鍵詞,如“立即登錄”“免費(fèi)”“贈送”等,以及是否存在大量的外部鏈接[8]。
?。?)頁面布局特征。釣魚網(wǎng)站通常模仿真實網(wǎng)站的設(shè)計,但可能在布局上有所不同。機(jī)器學(xué)習(xí)模型可以通過分析頁面的CSS、HTML標(biāo)簽等判斷是否為仿冒網(wǎng)站。
?。?)交互行為特征。例如,釣魚網(wǎng)站可能通過彈窗、表單等方式誘導(dǎo)用戶輸入個人信息,這些行為可以被追蹤和分析。
4.3 模型訓(xùn)練
利用提取的特征,使用機(jī)器學(xué)習(xí)算法來訓(xùn)練模型。這一過程通常需要有標(biāo)注的訓(xùn)練數(shù)據(jù)集,包括標(biāo)明“釣魚”與“非釣魚”的數(shù)據(jù)。訓(xùn)練的目標(biāo)是讓模型能夠識別出釣魚網(wǎng)站的典型特征,從而在實際應(yīng)用中進(jìn)行有效的判斷[8]。
4.4 模型評估與優(yōu)化
在訓(xùn)練完成后,需要通過測試集對模型進(jìn)行評估。根據(jù)評估結(jié)果,可以進(jìn)一步調(diào)整模型參數(shù)或選擇不同的算法來提高檢測性能[9]。
4.5 實時檢測
經(jīng)過訓(xùn)練和優(yōu)化的模型可以集成到網(wǎng)絡(luò)安全防護(hù)工具中,進(jìn)行實時檢測。當(dāng)用戶訪問某個網(wǎng)站時,系統(tǒng)會根據(jù)該網(wǎng)站的特征與訓(xùn)練模型進(jìn)行比對,判斷該網(wǎng)站是否可能為釣魚網(wǎng)站。如果是釣魚網(wǎng)站,系統(tǒng)會及時警告用戶并阻止訪問。
4.6 持續(xù)學(xué)習(xí)與更新
由于網(wǎng)絡(luò)釣魚攻擊的手法不斷演變,原有的釣魚網(wǎng)站特征可能不再適用。因此,基于人工智能的檢測系統(tǒng)需要定期更新訓(xùn)練數(shù)據(jù),重新訓(xùn)練模型,確保檢測系統(tǒng)的有效性。
5. 人工智能技術(shù)在網(wǎng)絡(luò)釣魚檢測中的實際應(yīng)用
以PayPal為例,用戶所收到的電子郵件看似簡單,郵件以“Hallo”開頭,主要內(nèi)容為:你的賬戶存在異?;顒樱枰泓c擊郵件中的身份驗證鏈接,進(jìn)行驗證[10]。因此,郵件中包含一個鏈接,指向一個偽造的登錄頁面,網(wǎng)址為“www.paypa1-security.com”。該域名中的“l”被替換為了數(shù)字“1”。如果用戶信以為真,點擊該鏈接后,進(jìn)入幾乎與真實PayPal登錄頁面外觀一致的網(wǎng)頁,當(dāng)用戶在這個假網(wǎng)站上輸入賬號密碼時,用戶的賬戶信息就落入了騙子的手中。
此時,人工智能技術(shù)在識別并檢驗釣魚網(wǎng)站方面發(fā)揮了巨大作用。首先,基于URL特征分析,人工智能技術(shù)會識別出該域名存在欺騙性拼寫(typosquatting),并且該網(wǎng)站的注冊信息顯示其歸屬于未知實體,而非PayPal官方。其次,通過網(wǎng)頁內(nèi)容分析,人工智能技術(shù)發(fā)現(xiàn)該頁面包含諸如“您的賬戶存在安全風(fēng)險,請立即驗證”之類的高危關(guān)鍵詞,同時,該頁面沒有安全套接層(secure sockets layer,SSL)證書或使用了低信譽(yù)的安全證書。再次,在頁面布局特征分析方面,人工智能技術(shù)通過超文本標(biāo)記語言(hypertext mark language,HTML)和串聯(lián)樣式表(cascading style sheets,CSS)代碼對比發(fā)現(xiàn),該網(wǎng)站的頁面結(jié)構(gòu)與PayPal官方頁面有所不同,如按鈕樣式、表單字段名稱等存在細(xì)微差異。此外,交互行為特征檢測顯示,該網(wǎng)站在用戶輸入登錄憑據(jù)后,立即嘗試重定向到一個非PayPal域名,并通過JavaScript代碼收集用戶輸入的信息,這種異常行為進(jìn)一步加大了釣魚風(fēng)險的可能性。最后,結(jié)合上述檢測方法,人工智能技術(shù)綜合判斷該網(wǎng)站為釣魚網(wǎng)站,并實時向用戶發(fā)出警告,阻止用戶提交任何敏感信息。人工智能技術(shù)的持續(xù)學(xué)習(xí)能力還允許其自動更新釣魚網(wǎng)站的特征數(shù)據(jù)庫,以應(yīng)對不斷變化的攻擊手法。
結(jié)語
人工智能技術(shù)在網(wǎng)絡(luò)釣魚攻擊的檢測與防范領(lǐng)域展現(xiàn)出巨大潛力,通過深度學(xué)習(xí)和自然語言處理等技術(shù)的運(yùn)用,不僅顯著提升了檢測的準(zhǔn)確性和效率,還使檢測方法變得更智能、更精準(zhǔn)、更全面。盡管目前人工智能技術(shù)在實施過程中還面臨諸多挑戰(zhàn),但隨著技術(shù)的不斷進(jìn)步與成熟,其在信息安全領(lǐng)域的應(yīng)用前景將更加廣闊,未來有望為網(wǎng)絡(luò)安全提供更加全面、高效和智能的保障。
參考文獻(xiàn):
[1]吳坤,陳蔓,鐘海濤.基于報告分析的2024年全球網(wǎng)絡(luò)安全趨勢研究[J].信息安全與通信保密, 2024(7):1-11.
[2]界面新聞.“釣魚”郵件冒充郵政或銀行騙錢,香港警方:逾百人中招,已有9人被捕[EB/OL].(2021-03-10)[2025-03-05].https://news.sina.com.cn/c/2021-03-10/doc-ikknscsi0377634.shtml.
[3]巨騰飛,呂麗萍.高級網(wǎng)絡(luò)釣魚攻擊的研究與防范[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2023(12):22-23.
[4]安全圈.攻擊者利用Facebook進(jìn)行網(wǎng)絡(luò)釣魚,獲取大量非法收益[EB/OL].(2022-06-10)[2025-03-05].https://www.163.com/dy/article/H9HC79JP0511A5GF.html.
[5]王輝,劉暢.機(jī)器學(xué)習(xí)在釣魚郵件識別中的應(yīng)用分析[J].信息安全研究,2017,3(5):412-417.
[6]丁海杰.基于深度學(xué)習(xí)的文本關(guān)系分類與生成機(jī)制研究及系統(tǒng)構(gòu)建[D].南京:南京郵電大學(xué),2022.
[7]李陽,孫悅.融合自然語言處理與行為分析的網(wǎng)絡(luò)釣魚檢測系統(tǒng)[J].計算機(jī)科學(xué),2020,47(11):143-148.
[8]陳浩.網(wǎng)絡(luò)釣魚攻擊的檢測和防御研究[D].南京:東南大學(xué),2023.
[9]陳鵬,郭云飛,張建朋,等.一種面向未知攻擊檢測的深度神經(jīng)網(wǎng)絡(luò)預(yù)處理方法[J].信息工程大學(xué)學(xué)報,2021,22(2):200-207.
[10]德國吃喝玩樂.警惕!德國PayPal新騙局:收到“Hallo”郵件要小心![EB/OL].(2024-11-18)[2025-03-05].https://baijiahao.baidu.com/s?id=1816053240926655344&wfr=spider&for=pc.
作者簡介:康樂,碩士研究生,工程師,kangle@qianxin.com,研究方向:網(wǎng)絡(luò)安全體系與企業(yè)安全建設(shè);尚杰,碩士研究生,研究方向:網(wǎng)絡(luò)安全體系與企業(yè)安全建設(shè);通信作者:盛浩月,本科,shenghaoyue01@qianxin.com,研究方向:網(wǎng)絡(luò)安全體系與企業(yè)安全建設(shè)。
