1. 程式人生 > 其它 >釣魚網站相關資料

釣魚網站相關資料

資料一

地址:https://www.kaggle.com/datasets/aman9d/phishing-data?resource=download
資料集說明:
Domain: The URL itself.
Ranking: Page Ranking
isIp: Is there an IP address in the weblink
valid: This data is fetched from google's whois API that tells us more about the current
status of the URL's registration.
activeDuration: Also from whois API. Gives the duration of the time since the
registration up until now.
urlLen: It is simply the length of the URL
is@: If the link has a '@' character then it's value = 1
isredirect: If the link has double dashes, there is a chance that it is a redirect. 1-> multiple
dashes present together.
haveDash: If there are any dashes in the domain name.
domainLen: The length of just the domain name.
noOfSubdomain: The number of subdomains preset in the URL.
Labels: 0 -> Legitimate website , 1 -> Phishing Link/ Spam Link

資料二

地址:http://shujujishi.com/dataset/04f86672-ed35-483c-99b0-397c8f0f1d79.html
或者
地址:http://sofasofa.io/competition.php?id=10
資料集說明:
訓練集中共有10086條樣本,預測集中有7000條樣本。資料集共有18個變數。注意:變數中含有缺失值。

變數說明:

變數名 解釋
contain_IP 網址中是否包涵ip,比如http://121.99.3.123/fake.html 包含ip。1表示包含,0表示不包含。
is_long 網址字元是否過長。1表示網址過長,0表示網址不長。
is_tinyurl 網址是否是短網址。比如https://bit.ly/2kXX6jV 就是短網址。1表示是短網址,0表示不是。
contain_at 網址是否包含“@”符號。1表示包含,0表示不包含。
contain_double_slash 網址是否包含“//”符號,該符號用來表示網址跳轉。1表示包含,0表示不包含。
contain_dash 網址是否包含“-”符號,該符號經常幫助用來偽裝真網站,比如www.my-taobao.com 。 1表示包含,0表示不包含。
contain_subdomain 網址是否包含子域名,比如www.pku.edu.cn 就包含edu和cn子域名。1表示包含,0表示不包含。
is_SSL 網址是否是https安全連結。1表示包含,0表示不包含。
with_long_history 網址所屬的主域名存在的時間。1表示長久,0表示不長久。
contain_icon 網址網頁是否有小圖示。1表示包含,0表示不包含。
contain_ext_domain 該網頁是否載入其他域名下的附件或者網頁。1表示包含,0表示不包含。
contain_email_to 該網頁是否包含傳送郵件的組建。1表示包含,0表示不包含。
allow_right_click 該網頁是否允許使用者進行右擊操作。1表示允許,0表示不允許。
contain_pop_up_windowL 該網頁是否包含彈窗。1表示包含,0表示不包含。
contain_Iframe 該網頁是否包含Iframe(巢狀網頁)。1表示包含,0表示不包含。
has_DNSRecord 網址是否有DNS記錄。1表示有,0表示無。
traffic 該網站的流量大小。1表示大,0表示小。
google_rank 該網址在google搜尋中的排名。1表示高於同類網站的平均排名,0表示低於同類網站的平均排名。
y 表示網站是否是釣魚欺詐網站,1表示是,0表示不是。在test.csv中,這是需要被預測的標籤;預測時,請提交每個樣本為1的概率。

資料三

地址:https://www.datafountain.cn/datasets/5587
資料集說明:
域:URL本身。
排名:頁面排名
isIp:網路連結中是否有
有效的IP地址:此資料是從Google的Whois API中獲取的,該資訊可以告訴我們有關
URL註冊當前狀態的更多資訊。
activeDuration:同樣來自whois API。提供自
註冊以來到現在為止的時間。
urlLen:只是URL的長度
is @:如果連結具有’@'字元,則其值= 1
isredirect:如果連結具有雙破折號,則有可能是重定向。1->多個
破折號一起出現。
haveDash:域名中是否包含破折號。
domainLen:域名的長度。
noOfSubdomain:URL中預設的子域數。
標籤:0->合法網站,1->網路釣魚連結/垃圾郵件連結