1. 程式人生 > >Python敏感地址掃描和爬取工具

Python敏感地址掃描和爬取工具

thread 測評 DC 並排 BE enc url 3D www

0×01 說明:

為了方便信息安全測評工作,及時收集敏感地址(初衷是爬取api地址),所以寫了這麽個小工具。兩個簡單的功能(目錄掃描和url地址爬取)。

0×02 使用參數: python spider.py -u url -s api -o output.txt -t thread_number #通過爬蟲

python spider.py -u url -s dir -f dict.txt -o output.txt #通過目錄掃描

0×03 部分函數說明:

防止因末尾斜線、錨點而重復爬取(http://www.example.com、http://www.example.com、http://www.example.com/index.html#xxoo)

技術分享圖片

爬取規則:

第一個無法爬取頁面註釋中的地址(http://example.com/index.html–>),第二個無法爬取相對路徑和php?id=等類型的地址,古結合兩種規則,並排除圖片視頻類的地址,最後再去重 huachenj157.com

技術分享圖片

補全相對地址、防止越界(可爬取子域名,其他地址除外),並驗證地址是否能正常訪問

技術分享圖片

地址池 thy157.com

技術分享圖片

爬取功能,雖然使用了多線程,但還是比較慢,輸出結果是爬取完畢的地址

技術分享圖片

目錄掃描和輸出到文件

技術分享圖片

0×04 代碼地址:

https://github.com/silience/spider

Python敏感地址掃描和爬取工具