1. 程式人生 > 其它 >論文筆記1. G-IDS Generative Adversaial Networks Assisted Intrusion Detection System

論文筆記1. G-IDS Generative Adversaial Networks Assisted Intrusion Detection System

  • 面臨挑戰以及解決方法

    • 問題1:樣本資料的不平衡和丟失問題
      解決方法:提出基於生成對抗網路的入侵檢測系統來解決;
      GAN:生成合成樣本(即訓練資料)
      IDS:與原始樣本一起訓練
  • 相關工作

    • 網路物理系統 cyber-physical systems (CPS):是指具有整合計算和物理能力的新一代系統,可以通過最先進的模式與人類互動。
    • 物聯網Internet of Things (IoT):作為CPS的重要子領域之一,將技術提升到以資料為主要力量。是將裝置與感測、計算和執行能力連線起來的領域。
    • 入侵檢測系統Intrusion Detection  Systems (IDSs):IDS 是一種裝置或軟體應用程式,用於監控網路或系統中的有害活動和違反規則的行為。負責檢查網路流量和系統資料是否存在惡意活動併發出警報,是 CPS 域防禦策略的首要部分。入侵防禦系統與入侵檢測系統同時工作,以防止攻擊者對系統造成任何損害。
      • AIDS:異常檢測系統,在訓練過程中學習資料的分佈。如果新來的資料不是來自同一分佈,則將其檢測為異常。每當系統有新的訓練資料時,便訓練 IDS 模型並不斷更新新的攻擊。因此,基於異常的 IDS 的防禦機制是一個動態過程,每個標籤需要更多資料才能正確訓練其模型 。
      • 分類型別的IDS-監督學習
      • 基於聚類的IDS-無監督學習
      • 數挖技術-提取重要特徵 
    • GAN: 通過對抗性方法估計生成模型。它由兩個獨立的模型組成:生成器(G)和判別器(D)。G 的最終目標是最大化 D 將生成的資料錯誤預測為的概率真正的一個, D的目標是做相反的事情。因此,G 和 D 玩一個兩人最小最大遊戲。為達到最優解,兩個博弈參與者需要不斷優化自己,以提高他們達到納什均衡的能力。
      • 生成模型 G 估計真實資料空間 x 上的資料分佈 p(g)。考慮輸入噪聲變數 p(z),G 的目標是生成來自相同 x 分佈的新對抗樣本 G(z)。
      • 判別器模型 D 返回概率 D(x),即給定樣本 x 來自真實資料集,而不是由 G 生成。
      • 價值函式 V(G,D) 定義如圖:
      • 納什均衡,Nash equilibrium:又稱為非合作博弈均衡,納什均衡是博弈論中一種解的概念,它是指滿足下面性質的策略組合:任何一位玩家在此策略組合下單方面改變自己的策略(其他玩家策略不變)都不會提高自身的收益。在一個博弈過程中,無論對方的策略選擇如何,當事人一方都會選擇某個確定的策略,則該策略被稱作支配性策略。如果任意一位參與者在其他所有參與者的策略確定的情況下,其選擇的策略是最優的,那麼這個組合就被定義為納什均衡。
    • 零日攻擊”(zero-day attack)——利用以前未知的漏洞侵入計算機系統 
  • 研究貢獻

    • 1.人工神經網路ANN建模:使用可以在任何資料庫上進行高精度訓練的人工神經網路 (ANN) 對 IDS 進行建模;
    • 2.對一個新興的 CPS 安全資料集進行建模,獨立 IDS 無法進行高精度預測。
    • 3.最重要的是,我們提出了一個新的安全框架 G-IDS,其中 GAN 生成更多的訓練資料來解決不平衡和丟失資料的問題。評估獨立 IDS (S-IDS) 和 G-IDS 的效能。
    • 4.在廣泛的網路入侵檢測資料集 KDD'99 中對所提框架進行評估。  
  • 研究目的(動機)

    • 模型的訓練樣本即(資料)少;
      大量資料會存在資料缺失情況,IDS無法看清資料空間分佈 
    • GAN 是一種能夠學習所提供資料的分佈並生成新的相似樣本深度學習工具
    • 解決:可以使用 GAN 輔助的 IDS 框架為所有需要改進預測的標籤生成新資料。 
    • 解決:需要一個綜合框架來處理新興 CPS 技術的不平衡和缺失資料相關問題。
  • 研究方法:提出的G-IDS框架-->四個模組  

    • 1.資料庫模組(DM):從**資料收集器**中收集真實世界的入侵檢測資料,也可以從**資料合成器模組**的**生成器**中獲取合成數據。所有資料都是並行連續累積的,並以不同的標誌儲存在資料庫中,以區分資料來源。
      • 合成數據:分為待處理和合成類
        • 待處理資料:即未提交的資料,可根據控制器模組的未來決定接受或刪除
        • 合成類:標記為合成的資料已經經過驗證並永久保留在資料庫中
      • 混合資料庫:僅包含原始資料和合成資料樣本
      • 構成:DM=DC+DB(資料收集器和資料庫) 
        • 資料收集器DC:收集資料(標記網路攻擊資料包)+資料預處理(使其可用於ML模型) 
          • 資料預處理(編碼+特徵縮放+特徵提取) 
            • 編碼:對資料集中的**分類值**進行**標籤編碼**。將特定特徵的每個類別轉換為 0 到 n-1 之間的值,其中 n 是該特徵的不同類別的數量
            • 特徵縮放:是一種用於對特徵範圍進行歸一化的方法。即規範化特徵。
            • 特徵提取:(也稱為特徵縮減)將高維空間重塑為更少的維度,其中的變換可以是線性的或非線性的。幫助消除冗餘變數使模型更簡單。  
        • 資料庫 (DB):儲存 DC+ DSM 的資料,資料的標籤(資料的型別正常或攻擊**型別**)和標誌位(特定資料的狀態)。原始資料、待處理資料、合成數據的處理以及標籤和相應的標誌。
          • 待處理:DSM模組生成的資料首先被標記為待處理,並且控制器會進行進一步的檢查。
    • 2.入侵檢測系統模組(IDS):基於ML的模型(基於ANN的多層模型)進行兩次訓練-->計算兩個效能指標-->評估合成數據
      • 模型1:僅在混合資料集上進行訓練模型  
        • Performance metric without pending data (PMH):即無待處理資料的效能指標。訓練模型後IDS 評估標籤效能指標並存儲在 PMH 。
      • 模型2:在混合資料集和待定資料集上進行訓練
        • Performance metric with pending data (PMP):帶有待處理資料的效能指標,在獲得帶有待處理標誌的合成數據後,IDS 在混合資料庫上重新訓練模型,包括待處理資料,以評估待處理資料點的額外貢獻。效能指標儲存在 PMP 中。
      • 上述兩個模型的評估指標都可供控制器模組使用,控制器模組根據這些指標對待處理資料做出進一步決定。
    • 3.控制器模組:控制器對上述兩種IDS模型的效能進行評估。根據評估結果,控制器決定拒絕/接受資料庫中待處理的樣本。**並行執行以下兩項重要任務**。
      • 任務1:向 DSM 傳送資料合成請求。
        • 首先,控制器分析 PMH 並將其與 PMTH(效能指標的最小閾值)進行比較。得分低於 PMTH 的類都被視為弱類,需要藉助 DSM 生成新樣本以提高檢測率。**每次 CM 向混合資料庫傳送一個標籤的請求,並繼續為所有剩餘的弱標籤傳送請求**。    
      • 任務2:評估來自 DSM 的待處理資料請求。
        • CM 分析評估指標 PMP 和 PMH 以更新資料庫。比較這兩個指標,CM 建議資料庫在效能下降時刪除特定標籤的待處理樣本。另一方面,如果效能提高,CM 建議通過將待定的標誌更新為合成來接受資料。  
      • 重複:控制器-->預測-->弱檢測類資料樣本-->資料合成器(由GAN組成)-->生成更多樣本->資料庫模組(帶有待處理標誌)~直至IDS的標籤效能滿足控制器的條件。
    • 4.資料合成器模組(DSM):核心部分是基於GAN的模型組成,由兩個ML模型(1. 生成器 (G) 和 2. 判別器 (D))組成。在生成潛在的樣本後,DSM將它們提供給DM,並帶有一個掛起的標誌。
      • 控制器選擇一個類並將整個資料庫傳送到 DSM,將 1 作為該特定類的標籤,將 0 作為其餘類的標籤。因此,對於 DSM,它成為一個二元分類模型,並在成功訓練後生成更多樣本。  
      • 此外,生成器將噪聲(潛在空間)作為輸入並生成人工樣本。GAN 訓練完成後,它會生成具有更高準確度的新樣本,並要求資料庫新增待處理標誌 
    • 提出演算法結構
    • 虛擬碼: 

  • 實驗部分

    • 評估方法
      • A. 資料集特徵形式化:多類+稀疏+不平衡
      • B.資料預處理:編碼+特徵縮放+特徵選擇
        • 編碼:三個分類輸入特徵和一個輸出特徵-->標籤編碼
        • 特徵縮放:特徵縮放是處理區域性最優和對特定特徵的偏度的關鍵步驟
          • Z-分數:資料點的Z分數表示偏離平均值的度量

             

          • 其中xi表示每個特徵的值,xmean是特徵的平均值,xstd表示標準差。
        • 特徵提取:減少特徵的數量(基於PC方法)
          • PCA主成分分析:PCA 是一種無監督的非引數統計過程,它計算一組新的變數(“主成分”)並根據這些新變量表示資料,並使用正交變換來變換一組可能相關變數的觀察值  
      • C.資料建模:樣本資料的分配:訓練和測試
      • D.評估指標:Precision(精度)+Recall(召回)+F1-score+Confusion Matrix(混淆矩陣)+macro-average F1分數(巨集觀平均F1分數)
        • F1 分數:F1 分數是準確率和召回率的加權平均值,同時考慮了誤報和誤報。在假陰性和假陽性值分佈不均的情況下,F1 分數可以推斷出對模型效能的更好理解。  
        • 混淆矩陣:是一個表格,旨在呈現每個類做出的正確和錯誤預測的計數。它提供了對預測的清晰洞察並顯示了分類/錯誤分類型別(例如真陽性、真陰性、假陽性、假陰性)。因此,可以使用這四個重要的關鍵因素來分析 IDS 的效能。
        • 巨集觀平均 F1 分數:獨立計算每個標籤的度量,然後取平均值以平等對待所有標籤,可以更好的瞭解模型在不同標籤上的效能。(由於資料集包含大量良性資料,使用加權平均 F1 分數評估系統不能提供清晰的畫面)  
    • 評估結果與討論(兩個角度進行評估):G-IDS與獨立的IDS(S-IDS)相比
      • 基於訓練集大小的評估
        • 標籤評估:在沒有 GAN 的幫助下訓練 S-IDS 模型。存在某些類別訓練樣本數不足,難以預測。GAN的效能高度隨機,通過將隨機噪聲作為輸入來工作  
        • 整體評價:巨集F1分數。
          • 如果任何類的 F1 分數小於閾值,控制器會要求資料合成器模組為該特定類(弱標籤)生成更多合成數據,以提高 IDS 的效能。一旦通過控制器驗證,新生成的合成樣本就會被新增到現有的混合資料集中。  
          • 儘管 GAN 本質上具有為一個標籤生成可能與其他標籤分佈重疊的噪聲意外資料的不確定性,但控制器模組會拒絕此類不良資料並保持 G-IDS 的效能提高。
      • 基於穩定性改善評估
        • GAN的優點
          • GAN提高了對不同攻擊的最終檢測率,還增強了IDS訓練過程的穩定性。  
          • 由於 GAN 生成的樣本填補了資料分佈中的空白,IDS 更容易學習訓練資料的分佈並得到解決。因此,總而言之,G-IDS 通過平衡不平衡資料集以及生成缺失資料來提高效能。除了提高對不同攻擊的最終檢測率外,GAN 還增強了 IDS 訓練過程的穩定性。  
  • 結論與未來工作

    • 總結:聯合(GAN-->深度學習)與(DS-->CPS域):在不平衡資料集或任何可用於模型訓練的資料量很少的新興網路物理系統領域中比獨立 IDS 表現更好
    • 侷限性:G-IDS 框架的集中、計算成本高和耗時的特性需要進一步研究。
    • 未來工作:建立一個動態、高效、輕量級的去中心化演算法,以在物聯網領域的邊緣裝置中實現它。

思維導圖如下: