1. 程式人生 > >java爬蟲-0010,資源篇

java爬蟲-0010,資源篇

爬蟲:模擬使用者操作瀏覽器獲取資訊,即模擬傳送request請求,獲取response物件,解析獲取自己需要的資料。

1、原始碼下載工具:

     1.1 httpclient:可以抓取未經過js渲染的原始碼,速度較快。

     1.2 phantomjs:可以抓取經過js渲染的原始碼,速度慢。

2、原始碼清洗工具

      2.1 jsoup

3、儲存工具

     3.1 berkeleydb:類似redis 記憶體資料庫,速度快。

     3.2mysql

4、抓包工具

     4.1 chrome:開發者工具

      4.2 fiddler:可以設定代理抓取app中的資料包,獲取路口

5、反編譯工具

     5.1 apktool 反編譯可以檢視資原始檔等

     5.2 dex2jar 可以將dex轉化乘jar包

     5.3 ja-gui ,luyten可以檢視原始碼,結合使用

     5.4 xposed 逆向神器,可以hook某個函式,得到引數等資訊。

6、打包工具

     6.1 exe4j

7、http協議