GitHub 免費提供機器學習掃描程式碼漏洞，現已支援 JavaScript / TypeScript

阿新 • • 發佈：2022-03-09

今天，GitHub 更新一項實驗版新功能。用上機器學習後，新版 CodeQL 程式碼掃描服務可以幫開發者發現更多安全漏洞。

目前在 JavaScript 和 TypeScript 儲存庫上開發測試，以後會逐步增加各種語言支援。

在測試期間，CodeQL 已經從 12,000 個儲存庫中發現了超過 20,000 個安全問題，包括遠端程式碼執行（RCE）、SQL 注入和跨站指令碼（XSS）漏洞。

如何使用

GitHub 的 CodeQL 程式碼掃描對於公共儲存庫是免費的。

目前，新的 JavaScript / TypeScript 分析工具，已向 security-extended 和 security-and-quality 分析套件的所有使用者推出。

如果你已經在使用這些套件，那麼將自動使用新的機器學習技術進行分析。

如果你之前沒使用過，可按照以下步驟啟用 CodeQL。

1、在你的儲存庫主頁下，單擊 Security。

3、在 Code scanning alerts 右側，點選 Set up code scanning。如果缺少這一項，需要由儲存庫管理員啟用 GitHub 高階安全性。

4、在“Get started with code scanning”下，單擊在 CodeQL Analysis 中的 Set up this workflow。

5、使用 Start commit 下拉選單，輸入檔名並提交。

6、選擇直接提交到預設分支，還是建立一個新分支並啟動拉取請求。

8、單擊提交新檔案。

程式碼掃描分析成功後，使用者將在“Security”選項卡中看到安全警報資訊。

為何用 ML 能產生更好效果

為了檢測儲存庫中的漏洞，CodeQL 引擎首先構建了一個數據庫，對程式碼的特殊關係表示進行編碼，然後在資料庫上執行一系列 CodeQL 查詢。

但隨著開源生態系統的快速發展，長尾效應越來越明顯。

安全專家不斷擴充套件和改進這些查詢，對其他常見庫和已知模式進行建模。然而，手動建模很耗時，而且總會有一些無法手動建模的不太常見的庫和私有程式碼。

這時候機器學習就派上了用場。通過給定大量訓練程式碼片段，每個查詢都標記為正面或負面樣本，為每個片段提取特徵，並訓練深度學習模型對新示例進行分類。

GitHub 不是將每個程式碼片段簡單地視為一串單詞或字元，直接應用標準 NLP 技術對這些字串進行分類，而是利用 CodeQL 訪問有關底層原始碼的大量資訊，為每個程式碼片段生成一組豐富的 feature，然後像 NLP 那樣對它們進行標記和子標記。

由此從訓練資料中生成一個詞彙表，並將索引列表輸入到深度學習分類器中，輸出當前樣本是每種漏洞的概率。

雖然現在基於 ML 的漏洞掃描僅適用於 JavaScript / TypeScript，但 GitHub 承諾未來會支援更多語言，現在 CodeQL 已經支援了 Python、Go、C / C++ 在內的多種流行語言。

最後，GitHub 還強調，雖然全新工具可以發現更多漏洞，但也有可能提高誤報率（召回率約為 80%，精度約為 60%）。未來這項功能會隨著時間推移而改善。

參考連結：

[1]https://github.blog/2022-02-17-code-scanning-finds-vulnerabilities-using-machine-learning/

[2]https://github.blog/2022-02-17-leveraging-machine-learning-find-security-vulnerabilities/

[3]https://docs.github.com/en/code-security/code-scanning/automatically-scanning-your-code-for-vulnerabilities-and-errors/setting-up-code-scanning-for-a-repository

GitHub 免費提供機器學習掃描程式碼漏洞，現已支援 JavaScript / TypeScript

如何使用

為何用 ML 能產生更好效果

GitHub 免費提供機器學習掃描程式碼漏洞，現已支援 JavaScript / TypeScript

機器學習呼叫程式碼

【機器學習與R語言】9- 支援向量機

機器學習小白上路，過去一個月在西瓜書上學習筆記與感悟。

Ubuntu 配套 Python 發現執行任意程式碼漏洞，需要儘快升級

Ubuntu 配套火狐瀏覽器發現執行任意程式碼漏洞，需儘快升級

AMD 總監談 FSR 技術爭議：機器學習不是全部，DLSS 1.0 就是證明

螞蟻集團上報 Spring 框架「高危」漏洞，現已修復

機器學習：樸素貝葉斯分類器實現二分類（伯努利型）程式碼+專案實戰

比Keras更好用的機器學習“模型包”：0程式碼上手做模型

深入理解機器學習從原理到演算法 PDF免費下載附書單

機器人控制學習機器程式設計程式碼_2020年您應該使用的前8個無程式碼機器學習平臺

低程式碼機器學習工具

機器學習實戰2.1KNN分類器程式碼（帶註釋）

基於機器學習的 SQL 注入漏洞挖掘技術的分析與實現——論文研究學習

sigmoid函式_機器學習第33集：什麼是sign函式？什麼是sigmoid函式？( 含有筆記、程式碼、註釋 )...

機器學習筆記之AdaBoost演算法詳解以及程式碼實現

機器學習演算法-樸素貝葉斯（二）：模擬離散資料集--貝葉斯分類（程式碼附詳細註釋）

機器學習筆記之jupyter自動程式碼補全

基於機器學習的異常流量監測程式碼實現

GitHub 免費提供機器學習掃描程式碼漏洞，現已支援 JavaScript / TypeScript

如何使用

為何用 ML 能產生更好效果

相關推薦