1. 程式人生 > 其它 >Proactive Identification of Exploits in the Wild Through Vulnerability Mentions Online

Proactive Identification of Exploits in the Wild Through Vulnerability Mentions Online

通過網上提到的漏洞,主動識別野外漏洞

標籤

漏洞利用預測

摘要

  發現和公開的軟體漏洞數量每年都在增加;然而,它們中只有一小部分在現實世界的攻擊中被利用。由於時間和技術資源的限制,組織經常尋找方法來識別受到威脅的漏洞,以確定補丁的優先順序。在本文中,我們提出了一個漏洞預測模型,預測一個漏洞是否會被利用。我們提出的模型利用了來自各種線上資料來源的資料(白帽社群、漏洞研究社群和暗網/深網站點)。
  與標準評分系統(CVSS基分)相比,我們的模型對少數類的F1度量為0.40(比CVSS基礎分提高了266%),並且在較低的假陽性率(分別為90%和13%)下獲得了高的真陽性率(F1值分別為0.40和13%)。結果表明,該模型作為可能在野外出現的漏洞的早期預測是非常有效的。我們還提供了一項定性和定量的研究,內容是當我們檢查的每個資料來源中提到一個漏洞時,利用漏洞的可能性會增加。

本文貢獻

  1. 展示了所開發的機器學習模型在預測野外漏洞方面的有效性,其真陽性率(TPR)為90%,而假陽性率(FPR)保持在15%以下。
  2. 我們發現了在EDB(9%)、ZDI(12%)和DW(14%)上提到的漏洞利用可能性比只在NVD上披露的漏洞(2.4%)有所增加。

模型組成

模型主要由三個部分組成:

  1. 資料收集
    資料來源包括NVD、EDB、ZDI、DW等
  2. 特徵提取
    我們從資料中提取相應的漏洞描述、一些特徵、披露等
  3. 利用預測
    我們使用了幾種有監督機器學習的方法,評估漏洞利用預測的效能。

實驗結果

  使用隨機森林模型優於CVSS評分,F1指標為0.4,精度為0.45,召回率為0.35。並且,分類器在低FPR(13%)的情況下顯示了非常高的TPR(90%),AUC為94%。
  當只使用 nvd 特徵時,分類器的 f1值為0.24(精度: 0.15,召回率: 0.56) ,而當新增 edb 特徵時,分類器的 f1值為0.35(精度: 0.31,召回率: 0.40) ,精度顯著提高。
  最終我們的結果表明,在保持高真陽性率的同時,我們在預測exploit時實現了顯著的低假陽性率。