1. 程式人生 > >垃圾郵件過濾技術發展現狀及展望

垃圾郵件過濾技術發展現狀及展望

作者: 石鐵峰

摘要:電子郵件隨著Internet的發展給人們帶來了方便,但隨之而來的垃圾郵件也給人們帶來了不少的煩惱。針對垃圾郵件技術的發展與現狀,本文對目前的垃圾郵件過濾技術進行了分析,並指出垃圾郵件過濾的發展趨勢。   關鍵詞:垃圾郵件 郵件過濾 過濾技術   中圖分類號:TP393.098 文獻標識碼:A 文章編號:1007-9416(2012)05-0211-02   1、引言   在Internet迅速發展的今天,電子郵件在為人們提供便利的同時,隨之而來的垃圾郵件也給人們帶來了不少的麻煩。據統計,全球80%的郵件是垃圾郵件,電子垃圾郵件確實令人們感到很厭煩。因此, 在網際網路快速發展的今天解決好電子郵件的過濾問題具有重要的現實意義。本文就目前垃圾郵件過濾技術發展現狀作簡要的介紹與分析, 並對未來的研究方向進行了展望。   2、垃圾郵件過濾技術分析   2.1 基於黑白名單的過濾技術   黑名單是一種被廣泛應用的垃圾郵件過濾技術,它採用列表的方式,將郵件伺服器的IP地址、域名或者E-mail地址列入其中,通常把這種列表稱為“黑名單”,當網路中的伺服器收到郵件後,先到“黑名單”上去查詢,如果發件人在名單中,就拒絕接受。黑名單是基於使用者投訴和取樣積累而建立的、由域名或IP 地址組成的資料庫。這些資料庫儲存了頻繁傳送垃圾郵件的主機名字或IP地址,供郵件伺服器進行查詢,最後就可以決定是否拒收郵件。黑名單通常是由一些非盈利性的反垃圾郵件機構來提供的, 如中國反垃圾郵件聯盟就屬於這類機構。   白名單是相對於黑名單來說。它建立的資料庫的內容和黑名單的一樣,但是其性質是:庫中存在的都是合法的,不應該被阻斷。庫中的“使用者”一般都會有一些可靠的聯絡人。這些聯絡人所發的郵件正常情況下都不是垃圾電子郵件。白名單技術就是根據這種現象而提出來的,當檢測到與黑名單相反的使用者時,將可靠的聯絡人的郵箱地址記載到白名單中,每當接收到這些聯絡人的郵件時,系統會自動將其按正常郵件處理。   2.2 基於規則的過濾技術   基於規則的過濾就是在郵件內容中尋找特定的模式,包括信頭分析、群發過濾和關鍵詞精確匹配等。這類方法效率較高,規則庫可以共享,推廣性很強。但不足之處在於規則需要使用者手工建立和維護,更新速度慢,且新規則的產生速度往往跟不上新垃圾郵件出現的速度,即它的時效性較差。基於規則的過濾方法主要有Ripper、決策樹(Decision Tree)和粗糙集(Rough Sets)等:   2.2.1 Ripper   Ripper(for Repeated Incremental Pruning to Produce Error Reduction)是William W.Cohen對IREP(Incremental Reduced Error Pruning)演算法的增強實現程式。該演算法可以從資料集合中得到規則集合,每條RIPPER規則由一些規則前件和結果組成,它包括了更好的剪技和停止準則以及對規則集合的後處理。該演算法先學習訓練集中的所有正例,不斷地向一初始集為空的規則集中加入規則,形成一個正例的規則集,接著就利用所有反例把約束條件不斷地加入到規則集中的關鍵字中,最後就根據這個包含了約束條件的規則集來做出決策。實驗證明,將Ripper 方法用於垃圾郵件過濾,取得了很好的效果。   2.2.2 決策樹(Decision Tree)   決策樹是著名的規則方法之一。它的基本方法是從一組無規則的事例中推斷出決策樹表示形式的分類規則,採用自頂向下的遞迴方式,在決策樹中通過對內部節點的屬性值進行比較,從該節點向下分支對不同屬性進行判斷,在決策樹的葉節點得到結論。 因此,在整棵樹中從根節點到葉節點就對應著一組表示式規則。著名的決策樹演算法有ID3、C4.5等。使用決策樹來過濾垃圾郵件取得了良好的效果。   2.2.3 粗糙集(Rough Sets)方法   Rough Sets理論是波蘭科學家帕拉克(Z.Pawlak)於1982 年提出的一種研究不完整、不確定知識和資料的表達、學習、歸納的理論方法。粗糙集理論具有很強的定性分析能力,能夠有效地表達不確定的或不精確的知識,善於從資料中獲取知識,並能利用不確定、不完整的經驗知識進行推理等,它在知識獲取、規則生成、決策分析等領域獲得了廣泛應用。Rough Sets通常經過屬性約簡(消除對決策屬性沒有影響的屬性)和屬性值約簡(消除對決策屬性沒有影響的屬性值)來簡化分類規則。將粗糙集方法引入到垃圾郵件過濾取得了很好的效果。   2.3 基於規則的過濾技術   基於規則的過濾技術首先對已分類的郵件樣本進行學習, 形成相應的規則,然後再依據這些規則對郵件進行分類過濾, 同時通過學習對規則進行更新。基於規則的過濾技術是當前主要的研究方向,已有的演算法包括貝葉斯過濾方法、支援向量機、Boosting 方法等。   2.3.1 貝葉斯過濾方法   樸素貝葉斯過濾器是垃圾郵件檢測領域中的一種常見方法,在反垃圾郵件軟體中得到了廣泛的應用。它是一種基於規劃的分類演算法,通常是把垃圾郵件和正常郵件分成兩種型別,通過對訓練樣本庫的分析,提煉出各特徵詞在這兩種郵件中分別出現的初始概率。當新的電子郵件到達的時候,首先提取出特徵詞,依據訓練樣本庫中學習的概率來判斷新到達的郵件分類為垃圾郵件或者正常郵件的概率。同時,也將該郵件放入訓練樣本庫,以便不斷修正初始概率。使用樸素貝葉斯過濾器,檢測的準確性相當高,但是它有一種不足之處,那就是需要維護訓練樣本庫,而這個樣本庫的維護工作往往是由使用者來參與完成。   2.3.2 支援向量機   近年來,有關支援向量機(Support Vector Machine ,簡稱SVM)的研究在我國得到了廣泛開展,它是美國統計學習理念的創始人Vapnik等提出的一種機器學習方法,它首先將訓練資料集轉換到一個高維空間,然後在這個高維空間中求出最優線性分類超平面,這就在輸入空間產生一個最優非線性決策邊界。在這個特徵空間中支援向量機的分類超平面是最優的分類超平面,然後可採用線性分類器進行分類。在文字分類中,SVM是公認的較好的方法之一。將支援向量機用於英文狀態下的垃圾郵件過濾,實驗結果為在錯糾率小於1%的限制下遺失率為2.36%,取得了較好的過濾效果。   2.3.3 Boosting方法   Boosting方法是具有全面提高弱分類演算法準確度的能力, 它首先通過對樣本集的操作從而獲得樣本子集,然後用弱分類演算法在樣本子集上訓練生成一系列的基分類器。前一次分類器的分類結果對每個基分類器的訓練都有重要的影響,訓練樣本的概率分佈是由基分類器在訓練集上的錯誤率來作相應的調整,最後分類器將通過單個基分類器的加權投票建立起來。通常Boosting 方法主要用於解決兩個問題:第一,如何分佈每一輪迴圈中訓練集上的樣本權重,第二,如何將多個規則整合為一個有效的預測規則。實踐證明,將Boosting方法引入到垃圾郵件過濾,獲得了較高的效能。   3、垃圾郵件過濾技術發展趨勢   雖然垃圾郵件的過濾技術已經取得了很大的進步,但是仍存在較高的將合法郵件誤判為垃圾郵件的“錯糾率”,因此,要過濾垃圾郵件,必須將兩種或以上的技術合併使用, 以達到有較好的過濾效果,降低誤判率。如根據目前多種過濾技術,採取對郵件伺服器、閘道器和客戶端進行一些必要的設定,使整個郵件在傳輸的過程中經過層層過濾,同時,一定要避免在郵件伺服器系統中開放轉發功能,在閘道器這一道重要關口中採用基於硬體的郵件過濾系統,把它安裝在路由器和伺服器之間,構成可靠的過濾鏈,當各個系統掃描進入的郵件時,將發出警報資訊,並把垃圾郵件擋在網路之外,或採用清除的模式把垃圾郵件過濾掉,防垃圾郵件的最後一道防線是客戶端,全面阻擋電子垃圾郵件,就要想方設法在客戶端中增強過濾功能。今後開發的客戶端郵件過濾器,應重點考慮使用者個性化特徵,能隨時自動地抓捕新垃圾郵件標本,並能根據垃圾郵件標本自動進行分析與判斷,從而重新建立和升級新的垃圾郵件特徵程式碼庫;也可建立自動生成新的郵件過濾規則,最終能夠自動攔截各種垃圾郵件。只有設定重重關卡,才能有效地過濾垃圾郵件。隨著垃圾郵件過濾技術研究的不斷深入,可以發現不論是垃圾郵件的特徵提取、規則生成還是檢測取證、判定以及佈置過濾措施,研究重點都從單項、單點的技術研究轉移到了對多技術體系融合、協作式的垃圾郵件過濾體系的研究。   4、結語   垃圾郵件的泛濫是全世界的一個難題,雖然人們越來越重視研究過濾垃圾電子郵件技術,也推出了一些新的方法與手段, 但是狡猾的垃圾郵件製造者為謀取私利,千方百計地修改垃圾電子郵件特徵,使得垃圾郵件過濾系統無法發現或檢測到。因此,要把垃圾郵件阻擋在系統外,單靠垃圾郵件過濾技術手段是無法解決的,還需要有關部門的重視和參與,通過宣傳或者立法的形成,利用法律手段對垃圾郵件製造者進行制裁。只有大家都自覺行動起來,利用先進的技術手段武裝網路系統,以完善的管理制度和法律法規為依託,雙管齊下,才能從根本上消除垃圾郵件。   參考文獻   [1]石鐵峰.支援向量機在電子郵件分類中的應用研究.計算機模擬,2011,28(8).   [2]肖明,殷鋒,張楠.垃圾郵件過濾技術及發展.西南民族大學學報,2007,33(1).   [3]時紅梅,高茂庭.垃圾郵件過濾技術及發展.計算機與數字工程,2008,(6).