1. 程式人生 > 實用技巧 >webmagic 0.4.0的特性

webmagic 0.4.0的特性

0.4.0已釋出,新聞:http://www.oschina.net/news/45720/webmagic-0-4-0

webmagic 0.4.0將於本週內釋出,新增特性:

大幅優化下載效率

  • 升級HttpClient到4.3.1,重寫了HttpClientDownloader的程式碼#32。
  • 在http請求中主動開啟gzip,降低傳輸開銷#31。
  • 修復0.3.2及之前版本連線池不生效的問題#30,使用新的連線池機制,實現連線複用功能。

經測試,下載速度可達到90%左右的提升。

新增同步下載模式,對於簡單任務更方便

<!-- lang: java -->
    OOSpider ooSpider = OOSpider.create(Site.me().setSleepTime(100), BaiduBaike.class);
    BaiduBaike baike = ooSpider.<BaiduBaike>get("http://baike.baidu.com/search/word?word=httpclient&pic=1&sug=1&enc=utf8");
    System.out.println(baike);

Spider部分:

  • 重構了多執行緒的程式碼,修復幾個執行緒安全問題。
  • 可以主動設定當所有任務完成時,Spider是否終止。
  • 可以設定初始的Request,而不僅僅是Url#29。
  • 增加http代理支援#22。
  • 支援自定義所有http頭#27

同時webmagic的郵件組開通了,歡迎加入:

https://groups.google.com/forum/#!forum/webmagic-java

推薦:微信怎麼匯出通訊錄到另一部手機