webmagic 0.4.0的特性
阿新 • • 發佈:2020-08-01
0.4.0已釋出,新聞:http://www.oschina.net/news/45720/webmagic-0-4-0
webmagic 0.4.0將於本週內釋出,新增特性:
大幅優化下載效率
- 升級HttpClient到4.3.1,重寫了HttpClientDownloader的程式碼#32。
- 在http請求中主動開啟gzip,降低傳輸開銷#31。
- 修復0.3.2及之前版本連線池不生效的問題#30,使用新的連線池機制,實現連線複用功能。
經測試,下載速度可達到90%左右的提升。
新增同步下載模式,對於簡單任務更方便
<!-- lang: java -->
OOSpider ooSpider = OOSpider.create(Site.me().setSleepTime(100), BaiduBaike.class);
BaiduBaike baike = ooSpider.<BaiduBaike>get("http://baike.baidu.com/search/word?word=httpclient&pic=1&sug=1&enc=utf8");
System.out.println(baike);
Spider部分:
- 重構了多執行緒的程式碼,修復幾個執行緒安全問題。
- 可以主動設定當所有任務完成時,Spider是否終止。
- 可以設定初始的Request,而不僅僅是Url#29。
- 增加http代理支援#22。
- 支援自定義所有http頭#27
同時webmagic的郵件組開通了,歡迎加入:
https://groups.google.com/forum/#!forum/webmagic-java