2020-Data-Driven Cybersecurity Knowledge Graph Construction for Industrial Control System Security
關於工業控制系統安全的資料驅動網路安全知識圖構建
一、摘要
工業控制系統(ICS)涉及許多關鍵行業,一旦受到攻擊,將造成重大損失。然而,網路安全領域傳統的被動防禦方法難以有效地處理日益複雜的威脅;知識圖是在網路安全分析過程中分析和處理資料的新思路。
本文提出了一種新的資料驅動的工業控制網路安全防禦的整體框架,該框架通過網路安全知識圖譜將碎片化的多源威脅資料與工業網路佈局整合起來。為了更好地將資料關聯起來構建知識圖,我們提出了一種遠端監督關係提取模型ResPCNN-ATT;該模型基於深度殘差卷積神經網路和注意機制,減少了遠端監督中噪聲資料的影響,並利用深度殘差更好地提取句子中的深度語義特徵。利用資料集CSER,通過經驗證明了該方法在一般網路安全領域的效能;本文提出的模型比其他模型具有更高的精度。然後,利用資料集ICSER在分析特定工業控制場景的基礎上,構建網路安全知識圖(CSKG),將知識圖視覺化,以便對工業控制系統進行進一步的安全分析。
二、關係提取模型簡介
本文的核心技術點為:向量化、深度殘差神經網路、多例項注意機制。將在後面部分詳細介紹。
首先使用預先訓練好的實體對之間的詞向量和位置向量作為輸入,可以突出這兩個實體的作用,然後使用分段卷積神經網路提取語義特徵。同時,引入了深度殘差學習,解決了由噪聲資料引起的梯度消失問題,從而提取出更有效的語義特徵。最後,為了更好地捕捉句子中更重要的語義特徵,採用多例項注意機制計算例項與對應的關係之間的相關性,從而減少噪聲資料的影響,提高關係提取的效能。
三、向量化
模型中向量表示層包括單詞嵌入和位置嵌入兩項內容。
嵌入是知識圖譜領域一個新的研究技術,旨在利用詞向量的平移不變性將知識圖譜中實體和關係嵌入到低維向量空間,進而完成知識表示。(對嵌入技術暫時理解不深入,暫時理解為文字資料的向量化,後期填坑)
1. 單詞嵌入
研究表明,當用預先訓練過的詞向量初始化神經網路時,引數可以收斂到更好的區域性最小值。
將一個句子中的每一個單詞對映到低維實值向量空間,然後對句子執行詞單詞向量處理,最後得到句子中每個詞的向量表示,形成一個單詞向量查詢矩陣。
2. 位置嵌入
在尋找兩個實體關係時,通常接近這兩個實體的單詞更有可能是他們的關係描述詞。所以,兩個實體在句子中的位置是關係提取任務的一個重要特徵。
在句子位置向量化中,如果詞向量的維數為dc,位置向量的維數為dp,則句子向量的維數為ds = dc + dp ∗ 2。
注意,上圖是一個以Chrome和XSS作為兩個例項的參考圖,用來說明上述公式。我們得到兩點資訊,採用的是向量拼接法,前部分是單詞向量,後部分用的是位置向量,這樣顯示了位置對實體關係的影響。其次,位置向量使用的相對兩個實體的位置,往文字下文為正,往文字上文為負。由於兩個實體,所以這也是上述公式中dp*2的原因。
四、深度殘差神經網路
PCNN模型可以起到利用所有的區域性特徵並且預測全域性關係的作用。由於深度學習知識薄弱,具體的殘差神經網路這邊不做敘述,以後填坑。
五、多例項注意機制
關係提取模型中,句子級別的注意力放在多個例項上面,這樣可以減少噪聲例項的影響。
六、系統性能
本文通過驗證該方法在資料集CSER和ICSER上的效能,採用的指標為RP曲線(準確率、召回率)、AUC值(RP曲線下方面積)、P@N(前N個結果的平均準確度)。
本文主要進行兩方面的比較,一是不同效能的CNN演算法:CNN、PCNN、ResPCNN。第二個方面就是對資料包中資料的處理方式,AVE、ONE、ATT。AVE是資料包中所有句子分配相同權重,ONE是獲取最高置信度的例項向量,在每個包選出一個最高分句子作為代表。
結果如下:AVE可以引入更多的句子資訊,但由於對每個句子有相同的評價,也會引入錯誤標籤資料的噪聲,降低了關係提取的效能,因此AVE在資料包模型中的關係提取效能最低。模型PCNN上ONE與ATT的AUC值差為0.12%,說明關係提取的效能差異不大。在模型ResPCNN和CNN上,ATT的關係提取效能略高於ONE;ATT可以在整個召回範圍內獲得更高的準確率。
ResPCNNATT模型的AUC值在資料集CSER上最高,達到12.68%。本文提出的ResPCNN-ATT模型可以更好地提取句子的深度語義資訊,表明引入ATT方法可以有效地減少遠端監督學習中的冗餘資料。
七、系統目的
本文構建了一個框架通過網路安全知識圖譜將碎片化的多源威脅資料與工業網路佈局整合起來。並且提出了一個關係提取模型ResPCNN-ATT,具有更高的精度。