1. 程式人生 > >百度百科多執行緒爬蟲(Java)

百度百科多執行緒爬蟲(Java)

BaiduBaikeSpider

百度百科多執行緒爬蟲Java原始碼,資料儲存採用了Oracle11g

簡介

採用了MyEclipes作為整合開發環境,應該是相容eclips

使用方法

下載此原始碼之後使用 (匯入 或者 import)操作匯入此專案

各個類介紹

HtmlDAO.java

主要是進行把爬蟲爬回來的資料插入到資料庫中的操作。

JdbcUtil.java

進行資料庫的基礎操作,獲取一個連線操作,釋放連線操作
如果要更改資料庫需要修改的部分有:

private static String url ="jdbc:oracle:thin:@127.0.0.1:1521:xe"
; private static String user = "BAIKE"; private static String password = "31415926"; Class.forName("oracle.jdbc.driver.OracleDriver");

另外別忘了匯入資料庫對應的Java驅動。

HttpRequest.java

執行HTTP請求的類,注意,並不支援HTTPS請求,如果要進行HTTPS請求,請使用 https://github.com/imu-hupeng/HttpsRequest/ 專案中的HttpsRequest.java

IdCreater.java

引入這個類的原因主要是百度百科使用的數字作為索引,好幾個爬蟲執行緒協同工作時要保證它們訪問的索引即不重複也不丟失,因此需要一個執行緒同步的索引產生器。
可以在裡面修改索引的起始值與結束值。

WebCrawler.java

實現爬蟲功能。

Main.java

可以修改 THREAD_NUM 的值新增不同數目的爬蟲數量。

附百科SQL檔案322MB:https://github.com/imu-hupeng/BaiduBaikeSpider/releases/download/v1.0.0/BAIKE_HTML.sql