論文筆記-基於程式碼屬性圖和Bi-GRU的軟體脆弱性檢測方法

阿新 • • 發佈：2021-11-22

一.摘要

提出了一種基於程式碼屬性圖和Bi-GRU的軟體脆弱性檢測方法。該方法通過從函式的程式碼屬性圖中提取出抽象語法樹序列、控制流圖序列作為函式表徵的表徵方式，減少程式碼表徵過程中的資訊的損失，並通過選取Bi-GRU來構建特徵提取模型，提高對脆弱性程式碼的特徵提取能力。實驗結果表明，與以抽象語法樹為表徵方式的方法相比，該方法最大可提高35%的精確率和22%的召回率，可改善面向多個軟體原始碼混合的真實資料集的脆弱性檢測效果，有效降低誤報率和漏報率。

二.本文貢獻

提出了一種基於程式碼屬性圖的軟體脆弱性智慧檢測方法(vulnerability detection based on code property graph，VDCPG)，該方法基於程式碼屬性圖對原始碼進行表徵，並根據在LibTIFF

資料集上的實驗結果選擇基於Bi-GRU的特徵提取模型對錶徵向量進行特徵提取，降低了不同專案編碼風格差異對脆弱性檢測效果的影響。
提出了一種基於程式碼屬性圖的表徵方式，利用從函數的程式碼屬性圖中提取的抽象語法樹序列和控制流圖序列對函式進行表徵，以減少程式碼表徵過程中的語法和語義資訊的損失，提高表徵能力。
在特徵提取階段，基於Bi-GRU和Bi-LSTM(bi-directional long short-term memory)構建多個提取模型。通過實驗發現，與基於Bi-LSTM構建的特徵提取模型相比，利用Bi-GRU構建的特徵提取模型最大可提高10%的精確率和6%的召回率。

三.整體架構

本方法通過３個步驟對待測軟體進行脆弱性檢測：

程式碼表徵階段。利用Joern根據從原始碼中生成程式碼屬性圖，並提取程式碼屬性圖中的資訊作為函式的表徵。
特徵提取階段。利用基於Bi-GRU的特徵提取模型提取函式表徵中的脆弱性特徵，獲得函式的特徵向量。
脆弱性檢測階段。利用隨機森林模型學習函式特徵向量中的脆弱性特徵，以此進行脆弱性檢測。

四.程式碼表徵

原始碼示例：

int fun1(int x)
{
	int y = test2(x);
	for(int i = 0, i < 5, i++)
	{
		if (i == 3)
		{
			printf(i);
			return y;
		}
	}
	return (x + y);
}

通過Joern工具生成程式碼屬性圖，並存儲為Json格式(fun1函式的程式碼屬性圖的Json表示)。
從程式碼屬性圖中提取抽象語法樹(AST)序列以及控制流圖(CFG)序列，替換程式碼中的所有字串為"str"。

將控制流序列和抽象語法樹序列合併得到文字型向量(稱為ACS，abstract syntax tree and control flow graph sequence)，可唯一標識fun1函式。

#抽象語法樹序列：
	[METHOD, fun1, PARAM, int, x, ...]
#控制流圖序列：
	[METHOD, fun1, test2, test2(x), <operator>.assignment, y, =, test2, (, x, ), ...]
#文字型向量ACS
ACS = [METHOD, fun1, PARAM, int, x, ...] + [METHOD, fun1, test2, test2(x), <operator>.assignment, y, =, test2, (, x, ), ...]

通過keras分詞器Tokenizer將ACS(METHOD, fun1, PARAM, int, x, ...)轉為數值型向量(1，2，25，...)，並統一向量長度(長度大於L，向量末端進行截斷；長度小於L，向量末端用0來填充)。
利用所有函式的文字型向量組成的語料庫對Word2vec模型進行訓練，得到對映集。利用對映集將向量中的每個元素轉換為N維詞向量，當元素沒有對應的詞向量時，使用全零的N維向量作為當前元素的詞向量。

五.特徵提取和脆弱性檢測

分別使用BIGRU和隨機森林進行特徵提取和脆弱性檢測。

論文筆記-基於程式碼屬性圖和Bi-GRU的軟體脆弱性檢測方法

一.摘要

二.本文貢獻

三.整體架構

四.程式碼表徵

五.特徵提取和脆弱性檢測

六.實驗結果

論文筆記-基於程式碼屬性圖和Bi-GRU的軟體脆弱性檢測方法

Visual Studio調節程式碼字型大小和主體（軟體介面的顏色）

基於視覺-語義中間綜合屬性特徵的影象中文描述生成演算法論文筆記

Matplotlib繪製雷達圖和三維圖的示例程式碼

python 計算積分圖和haar特徵的例項程式碼

3行Python程式碼實現影象照片摳圖和換底色的方法

前端學習筆記一：HTML 特點基本結構 doctype文件型別宣告網頁編碼設定 html標籤屬性文字和段落標籤特殊符號

SpringIOC基於註解建立物件和注入屬性

基於python模擬bfs和dfs程式碼例項

論文筆記：Towards Practical Differential Privacy for SQL Queries FLEX工具 PrivSql主要參考和對比的物件

python學習筆記15.私有屬性和私有方法

MyBatis學習筆記——第四部分解決屬性名和欄位名不一致的問題（ResultMap）

基於javacv的視訊截圖和轉碼（升級版）

Spark學習筆記（詳解，附程式碼實列和圖解）----------RDD(四）分割槽器

圖 embedding 相關論文筆記

超圖 embedding 相關論文筆記

[學習筆記] 無向圖和有向圖的連通分量

Vue echart實現柱狀圖,電池圖,3D柱圖和3D圓柱圖程式碼詳解

基於雙注意模型的影象描述生成方法研究論文筆記

三分鐘零程式碼實現CAD網頁Web快速看圖和高科技效果展示

論文筆記-基於程式碼屬性圖和Bi-GRU的軟體脆弱性檢測方法

一.摘要

二.本文貢獻

三.整體架構

四.程式碼表徵

五.特徵提取和脆弱性檢測

六.實驗結果

相關推薦