釣魚網站檢測【機器學習】

阿新 • • 發佈：2019-09-17

本文介紹如何使用機器學習技術檢測一個URL是否是釣魚網站，內容包括資料抓取、特徵選擇和模型訓練等。

學程式設計，上匯智網，線上程式設計環境，一對一助教指導。

我有一個客戶的郵箱最近差點被釣魚網站騙掉。他的供應商的郵件被攻擊了，然後黑客使用這個供應商的郵箱給他發了一封催款郵件，要求他支付到另一個銀行賬號。幸運的是，我的客戶給那個供應商打電話進行了確認因此發現了騙局。這使我意識到釣魚攻擊到處都在，我們不應當低估它的危害。

下面是一些釣魚網站的例子，基本上他們的目的就是騙到你的登入賬號和密碼。這是一個仿冒Paypal的釣魚站：

在這裡插入圖片描述

這是一個仿冒的遊戲站：

在這裡插入圖片描述

1、初步分析

學程式設計，上匯智網，線上程式設計環境，一對一助教指導。

在Kaggle上有一些釣魚資料集，但是為此專案我希望生成自己的資料庫。我使用了兩種資料來源來構建釣魚URL清單：

合法URL：Ebubekir Büber (github.com/ebubekirbbr)
釣魚URL：phishtank.com

利用一點領域知識對這些合法和釣魚URL進行分析，我將可以從URL中得到的資訊分為以下5個類別：

URL：包含了一些線索。有些釣魚URL是使用bit.ly等工具生成的短網址，還有一些則是包含了額外的引數，例如：
- https://services.runescape.com-u.cz/m=weblogin/loginform.wa725,200,119,49827406,1
- https://bit.ly/2Kni3xl?facebook
域名：二級域名可能存在釣魚風險。例如：
- http://paypal-verify.com/customer_center/customer-IDPP00C227/myaccount/signin
- http://recoveryourpaypalacc.globalengg-mep.com/login/customer_center/customer-IDPP00C52
網路：HTTP相應頭中可能包含有用的資訊
頁面：總體來說，釣魚網站總是使用一些表單試圖讓你輸入賬號、郵件、密碼等資訊- Whois：域名往往是通過GoDaddy等註冊商註冊的

通過分析我還有以下的發現：

釣魚攻擊者通常會黑進合法的網站來插入釣魚網頁，而不是搭建一個獨立域名進行釣魚攻擊。雖然這會讓從域名來識別釣魚網站更困難，我理解註冊商和託管商一旦發現釣魚網頁都會迅速通知站長移除以避免對其排名的影響。這意味著我們可能會看到被攻擊的域名的註冊商為空。
有些釣魚網站可能包含惡意程式碼而不是直接在瀏覽器中載入URL。我這樣操作：
- 使用https://web-capture.net這樣的工具檢視這些頁面的截圖
- 使用文字編輯器分析HTML程式碼

2、資料獲取

我的資料抓取器的概念模型大致如下：

在這裡插入圖片描述

基本的思路是儘可能保持程式碼的模組化，這樣我就可以在需要的時候新增新的分類。我抓取的每個頁面都在本地檔案儲存，以便這些頁面在將來不可用時有個參考依據。

我使用BeautifulSoup來提取頁面資訊，通過設定隨機的user-agent，可以減少請求被當作bot拒絕的可能。

為了保證一致性，我也對URL進行了基本的預處理，例如移除www和結尾的斜槓。

3、探索式資料分析

學程式設計，上匯智網，線上程式設計環境，一對一助教指導。

由於抓取資料非常耗時，我決定開始我的探索式資料分析來找點感覺。在分析了1817個URL（其中包括930個釣魚URL和887個合法URL）的特徵之後，我選擇使用以下15個特徵：

  URL            Domain          Network      Page       Whois    
 -------------- --------------- ------------ ---------- --------- 
  length         len_subdomain   len_cookie   length     w_score  
  special_char   is_https                     anchors             
  depth                                       form                
                                              email               
                                              password            
                                              signin              
                                              hidden              
                                              popup

4、特徵選擇

我是用LASSO正則化來識別重要的特徵。即使只用了一個小alpha值，我已經發現了5個重要的特徵：

[('len', 0.0006821926601753635),
('count_s', 0.0),
('depth', 0.0),
('len_subdomain', 0.0),
('is_https', 0.0),
('len_cookie', -0.0002472539769316538),
('page_length', -2.4074484401619206e-07),
('page_num_anchor', -0.0006943876695101922),
('page_num_form', -0.0),
('page_num_email', -0.0),
('page_num_password', 0.0),
('page_num_signin', 0.0),
('page_num_hidden', -0.00041105959874092535),
('page_num_popup', -0.0),
('w_score', -0.0)]

坦白說，對於w_score沒起作用我有點驚訝。最終我決定使用這5個特徵。

  URL      Domain   Network      Page      Whois  
 -------- -------- ------------ --------- ------- 
  length            len_cookie   length           
                                 anchors          
                                 hidden

然後我使用KNN搭了一個簡單的分類器作為基線。K選擇3並得到了還算可以的準確率0.793：

在這裡插入圖片描述

5、模型

通過抓取我得到6906 個url，3501合法, 3455 釣魚。不出意外的是許多釣魚頁面不可訪問了：

 Type    #URL processed   #Pages available  
------- ---------------- ------------------ 
 Legit            4,000              3,501  
 Phish            6,000              3,455

利用這6906個樣本我再次進行特徵選擇，篩選出同樣的5個特徵。最優的K還是3，很好！

下面是模型的引數：

Model               Accuracy  
------------------- ---------- 
Naive Bayes            0.757  
SVC                    0.760  
KNN (K=3)              0.791  
Log. Reg.              0.822  
Decision Tree          0.836  
KNN (K=3, scaled)      0.845  
Random Forest          0.885

原文連結：用機器學習檢測釣魚網

釣魚網站檢測【機器學習】

本文介紹如何使用機器學習技術檢測一個URL是否是釣魚網站，內容包括資料抓取、特徵選擇和模型訓練等。學程式設計，上匯智網，線上程

【機器學習】使用gensim 的 doc2vec 實現文本相似度檢測

評估 sum ref txt imp uil archive 自然語言 htm 環境 Python3， gensim，jieba，numpy ，pandas 原理：文章轉成向量，然後在計算兩個向量的余弦值。 Gensim gensim是一個python的自然語言處理庫，能

【機器學習】最簡單易懂的行人檢測功能實現

載入訓練好的行人分類器，實現行人檢測功能。程式碼中用到的訓練好的行人分類器"pedestrianDetect.xml"下載路徑：https://download.csdn.net/download/lyq_12/10742144 一、效果如下： 1、輸入原圖 2、輸出結果

【機器學習】最容易實現的基於OpenCV的人臉檢測程式碼、檢測器及檢測效果

基於opencv自帶的人臉檢測模型，實現簡單的人臉檢測功能，可作為機器學習初學者練手使用。簡單易學，具體的方法及程式碼如下。 1、執行結果輸入原圖輸出結果 2、工程需要載入的opencv庫如下： 3、用到的人臉檢測器 4、具體實現程式碼 #

【機器學習】HOG+SVM進行車輛檢測的流程及原始碼

在進行機器學習檢測車道線時，參考了這篇博文，基於LBP+SVM實現了車道線檢測的初步效果。覺得講解很到位，程式碼也容易理解和修改，故在此分享，供更多人學習。原地址：https://www.cnblogs.com/louyihang-loves-baiyan/p/4658478.html HOG

【機器學習】傳統目標檢測演算法之級聯分類器Cascade

先附上參考文章吧。文章其實是“P. Viola, M. Jones. Rapid Object Detection using a Boosted Cascade of Simple Features[J].CVPR, 2001”的學習筆記，下面第二個連結是文獻的中英文版

【機器學習】異常點檢測_sklearn

注意Novelty和Outlier的區別 novelty detection: The training data is not polluted by outliers, and we are interested in det

【機器學習】隨機森林 Random Forest 得到模型後，評估參數重要性

img eas 一個 increase 裏的 sum 示例增加機器在得出random forest 模型後，評估參數重要性 importance（）示例如下特征重要性評價標準 %IncMSE 是 increase in MSE。就是對每一個變量比如 X1

【機器學習】主成分分析PCA（Principal components analysis）

大小限制總結情況 pca 空間會有 ges nal 1. 問題真實的訓練數據總是存在各種各樣的問題：　　1、比如拿到一個汽車的樣本，裏面既有以“千米/每小時”度量的最大速度特征，也有“英裏/小時”的最大速度特征，

【機器學習】1 監督學習應用與梯度下降

例如 tla ges 機器 fprintf lns 找到輸入 style 監督學習簡單來說監督學習模型如圖所示其中 x是輸入變量又叫特征向量 y是輸出變量又叫目標向量通常的我們用（x,y）表示一個樣本而第i個樣本用（x（i），y（i））表示 h是輸出函

【機器學習】EM的算法

log mea www 優化問題 get href ive 路線 EM的算法流程：初始化分布參數θ；重復以下步驟直到收斂： E步驟：根據參數初始值或上一次叠代的模型參數來計算出隱性變量的後驗概率，其實就是隱性變量的期望。作為隱藏變量的

【機器學習】DBSCAN Algorithms基於密度的聚類算法

多次使用缺點有效結束基於需要 att 共享一、算法思想： DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一個比較有代表性的基於密度的聚

【機器學習】數據預處理之將類別數據轉換為數值

行數據 pri and slab form ces nbsp 遍歷 encode 在進行python數據分析的時候，首先要進行數據預處理。有時候不得不處理一些非數值類別的數據，嗯，今天要說的就是面對這些數據該如何處理。目前了解到的大概有三種方法： 1，通過LabelE

【機器學習】對梯度下降算法的進一步理解

獨立 com 線性回歸執行 ont 執行過程 wid 簡單的技術單一變量的線性回歸讓我們依然以房屋為例，如果輸入的樣本特征是房子的尺寸，我們需要研究房屋尺寸和房屋價格之間的關系，假設我們的回歸模型訓練集如下其中我們用 m表示訓練集實例中的實例數量， x代表特

【機器學習】手寫數字識別算法

alt gdi 數字識別 -1 轉換 error: erro files turn 1.數據準備樣本數據獲取忽略，實際上就是將32*32的圖片上數字格式化成一個向量，如下：本demo所有樣本數據都是基於這種格式的訓練數據：將圖片數據轉成1*1024的數組，作為一

【機器學習】隨機初始化思想神經網絡總結

算法代價函數所有 -i 如果中間相同決定最小　之前在進行梯度下降時，通常我們讓Θ等參數為0，這樣的做法在邏輯回歸中還是可行的，但是在神經網絡中，如果你讓所有的參數都初始化為0，這將意味著第二層的所有的激活單元都會有相同的值，同理，如果我們初始化所有的參數都是一

【機器學習】 Matlab 2015a 自帶機器學習算法匯總

dtree 決策 mat 可能集成模型訓練貝葉斯 cdi top MATLAB機器學習沒看到啥教程，只有一系列函數，只好記錄下： MATLAB每個機器學習方法都有很多種方式實現，並可進行高級配置（比如訓練決策樹時設置的各種參數），這裏由於篇幅的限制，不再詳細描述。我

【機器學習】支持向量機（SVM）

cto nom 機器 ins 神經網絡學習參數 mage 36-6 感謝中國人民大學胡鶴老師，課程深入淺出，非常好關於SVM 可以做線性分類、非線性分類、線性回歸等，相比邏輯回歸、線性回歸、決策樹等模型（非神經網絡）功效最好傳統線性分類：選出兩堆數據的質心，並

【機器學習】---密度聚類從初識到應用

max 一個 eight log div 指定聚類空間 mar 一.前述密度聚類是一種能降噪的算法。二.相關概念先看些抽象的概念（官方定義）： 1.：對象O的是與O為中心，為半徑的空間，參數，是用戶指定每個對象的領域半徑值。 2.MinPts（領域密度閥值）：對象

【機器學習】--線性回歸中L1正則和L2正則

last clas nbsp post pan red font 推廣 http 一、前述 L1正則，L2正則的出現原因是為了推廣模型的泛化能力。相當於一個懲罰系數。二、原理 L1正則：Lasso Regression L2正則：Ridge Regression

釣魚網站檢測【機器學習】

1、初步分析

2、資料獲取

3、探索式資料分析

4、特徵選擇

5、模型

相關推薦