java爬蟲系列（四）——動態網頁爬蟲升級版

阿新 • • 發佈：2019-01-01

我之前推薦過大家使用seimiagent+seimicrawler，但是經過我多次試驗，在爬取任務過多，比如執行緒數超過幾十的時候，seimiagent會經常崩潰，當然這也和啟動seimiagent的伺服器有關。
鑑於seimiagent的效能不適合普通裝備的爬蟲愛好者，我重新寫了一款quick-spring+selenium的最簡爬蟲案例，供大家參考。

專案地址

專案介紹

框架

selenium
這就不用多介紹了吧，百度一搜就知道了，用來解析網頁的框架。

結構

圖(1)

比較重要的檔案我都勾畫出來了。

ComicCrawler.java
控制每個網頁的具體爬蟲邏輯。
App.java
爬蟲啟動類。
application.properties
一些關鍵的配置資訊，根據你自己的配置修改就行了。
config.ini
網頁驅動器的配置檔案，比如你要選擇哪一種驅動器，我這裡選中的是chromedriver，因為目前根據我的測試，它要比phantomjs穩定一點。
quick-applicationContext.xml
可以自己修改一些連線池的配置。

快速啟動

修改配置檔案

根據自己的配置，修改好application.properties、config.ini、quick-applicationContext.xml的內容。
qiniu_cdn

這些不用管，這是我把爬到的內容上傳到七牛雲的時候用到的。

WebDriverPool.java

找到

private static final String DEFAULT_CONFIG_FILE = "/Users/Ouyang/Documents/myProjects/quick-selenium/src/main/resources/config.ini";

修改為自己的config.ini的路徑。

App.java

package com.ouyanglol.start;

import com.ouyanglol.core.QuickBase;
import com.ouyanglol.crawler.ComicCrawler;


/**
 * Package: com.ouyanglol.start
 *
 * @Author 
: Ouyang
 * @Date: 2018/2/2
 */
public class App {
    public static void main(String[] args) throws Exception {
        System.getProperties().setProperty("webdriver.chrome.driver", "/Users/Ouyang/Documents/myProjects/chromedriver");
        QuickBase quickBase = QuickBase.getInstance("crawler");
        ComicCrawler crawler = (ComicCrawler) quickBase.getQuick("ComicCrawler");
        crawler.start("https://manhua.dmzj.com/yiquanchaoren/");//一拳超人爬蟲開始網址
    }
}

修改

System.getProperties().setProperty("webdriver.chrome.driver", "/Users/Ouyang/Documents/myProjects/chromedriver");

為自己的chromedriver的路徑，如果使用phantomjs就不用了，phantomjs的配置在config.ini裡面宣告。

填寫自己的爬蟲開始路徑。

crawler.start("https://manhua.dmzj.com/yiquanchaoren/");

ComicDriver.java

一定要注意使用webDriver.quit();，根據我多次的實驗，長時間啟動多個webDriver，不退出的話，也容易導致驅動器崩潰。

如果你們電腦配置過低，瀏覽器多次崩潰，不妨取消

//                if (i%50==0) {
//                    webDriver.quit();
//                    webDriver = webDriverPool.get();
//                }

這一段的註釋，每解析50個網頁就啟動一個新的驅動器。

ComicContentService.java

qiniuUtil.uploadImg(fileName,imageUrl,chapterUrl);//把圖片儲存到七牛雲，圖片的處理方式可以自己決定

沒有七牛雲的同學，可以把這段程式碼註釋，以免報錯。

comic.sql

執行其中sql，初始化資料庫，最後啟動App.java中的main()方法就可以了。

同系列文章

java爬蟲系列（四）——動態網頁爬蟲升級版

我之前推薦過大家使用seimiagent+seimicrawler，但是經過我多次試驗，在爬取任務過多，比如執行緒數超過幾十的時候，seimiagent會經常崩潰，當然這也和啟動seimiagent的伺服器有關。鑑於seimiagent的效能

Python爬蟲系列（四）：Beautiful Soup解析HTML之把HTML轉成Python對象

調用 nor 結束版本現在 name屬性 data 官方文檔 get 在前幾篇文章，我們學會了如何獲取html文檔內容，就是從url下載網頁。今天開始，我們將討論如何將html轉成python對象，用python代碼對文檔進行分析。 (牛小妹在學校折騰了好幾天，也沒把h

Java Thread系列（四）線程通信

ice 集合就是 int name 發出 max 執行生產 Java Thread系列（四）線程通信一、傳統通信 public static void main(String[] args) { //volatile實現兩個線程間數據可見性 priva

Python爬蟲系列（四）（簡單）Dota排行榜爬取，並存入Excel表格

在編寫Python程式的時候，有很多庫供我們選擇，如urllib、requests，BeautifulSoup，lxml，正則表示式等等，使得我們在獲取網頁原始碼或者選擇元素的時候

python爬蟲實戰（四）：selenium爬蟲抓取阿里巴巴採購批發商品

一、前言二、學習資料（感謝分享）三、開始爬取 1、先分析目標網址，為什麼選擇selenium 在搜尋中輸入女裝，用F12檢視原始碼，看看網頁顯示的內容是不是Ajax。點選Network，選擇下面的XHR，按F5重新整理頁面，下

Java虛擬機系列（四）---查看GC日誌

位置最大堆其他 asp alloc -s 調研 server pan 這一節穿插一點如何在eclipse中配置並查看某個Java應用GC日誌的知識點，我也是通過調研知道的，因為書中寫的不是很詳細，主要是為下一節做準備。一、eclipse中配置GC 在eclipse

Java基礎系列（四十六）：Set & AbstractSet

Set Set繼承了Collection介面，它本身也是一個介面，代表一種不能擁有重複元素的容器型別，更確切的說，集合不包含一對元素e1和e2 ，使得e1.equals(e2) 。通過Set的一些實現，我們可以發現，Set是基於Map進行實現的，所以Set取值時不保證資料和存入

Java基礎系列（四十五）：集合之Map

簡介 Map是一個介面，代表的是將鍵對映到值的物件。一個對映不能包含重複的鍵，每個鍵最多隻能對映到一個值。 Map 介面提供了三種collection檢視，允許以鍵集、值集或鍵-值對映關係集的形式檢視某個對映的內容。對映順序定義為迭代器在對映的 collection 檢視上返回

Java基礎系列（四十四）：集合之ArrayList

簡介 ArrayList與Vector非常相似，他們都是基於陣列實現的集合，都可以動態擴容，只不過Vector是同步的，所需的資源較多，而且比較老，有一些缺點，所以我們現在更多的是去使用ArrayList，而不是Vector。下面，我們在閱讀原始碼的過程中遇到的一些問題對ArrayL

Java基礎系列（四十三）：集合之Vector&Stack

Vector 簡介 Vector是一種實現了動態陣列的集合，何為動態陣列呢？即長度可以自動增長的陣列，它是執行緒同步的，也就是說同一時刻只有一個執行緒可以寫Vector，可以避免多執行緒同時寫引起的不一致性，但是比較消耗資源。接下來，我們來看Vector的原始碼。原始碼

Java基礎系列（四十二）：集合之AbstractList

前言 AbstractList是實現List介面的一個抽象類，它的地位之與List類似於AbstractCollection之與Collection，同事，AbstractList繼承了AbstractCollection，並針對List介面給出了一些預設的實現。而且它是針對隨機訪問

Java基礎系列（四十一）：集合之List

前言 List是繼承自Collection的一個子介面，它提供了一個有序的集合，在這個集合中我們可以使用索引去獲取集合中的值，同時，我們也可以通過迭代器去訪問集合中的元素，第一種方法被稱為隨機訪問，因為我們可以按照任意的順序去訪問元素，而使用迭代器就必須順序的去訪問元素。結構圖

Java基礎系列（四十）：集合之AbstractCollection

前言（PS：上週由於準備自考，更新延誤了一些，見諒！） AbstractCollection類是Collection介面的一個實現類，它只是為了給我們提供了一些最基礎的介面的實現，在實際的應用中，我們並不會去使用這個類來封裝一些資訊，接下來我們首先去看一下這個類的繼承關係圖。

Java基礎系列（四十七）：集合之AbstractMap

AbstractMap AbstractMap和AbstractList，AbstractCollection等抽象類類似，它實現了Map介面的部分方法，提供了一些基礎的實現，我們耳熟能詳的HashMap, TreeMap, ConcurrentHashMap 都是他的子類。構

爬蟲入門系列（四）：HTML文字解析庫BeautifulSoup

爬蟲入門系列目錄：系列文章的第3篇介紹了網路請求庫神器 Requests ，請求把資料返回來之後就要提取目標資料，不同的網站返回的內容通常有多種不同的格式，一種是 json 格式，這類資料對開發者來說最友好。另一種 XML 格式的，還有一種最常見格式的是 HTML 文件，今天就來講講

Python爬蟲開發（四）：動態載入頁面的解決方案與爬蟲代理

0×00 前言如果讀者讀過我前面的關於爬蟲的文章，應該大概都清楚我們現在可以對一個靜態的web頁面”為所欲為“了，但是技術的發展總是沒有止境的，僅僅是這樣對靜態頁面處理遠遠不夠，要知道現在很多的web頁面有意無意為了防止靜態爬蟲使用ajax技術動態載入頁面，這就導致了在面對這些網站的時候，我們

java爬蟲系列（五）——今日頭條文章爬蟲實戰

專案原始碼爬蟲目標爬取某一頭條號下面所有文章。爬蟲設計思路爬取方式動態解析網頁方式爬取之前介紹過使用webdriver的方式爬取網頁內容，這樣做的話好處非常明顯，只需要考慮如何解析網頁的element標籤就行

爬蟲系列（二）——網頁解析Jsoup

Jsoup是一款Java的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作資料。

java 系列（一）動態代理（下）

前兩章想必大家都知道動態代理是怎麼回事，本小節的內容是動態代理的實踐操作了。在Android專案中如何實現按鈕的防雙擊（防抖動）。這個在Android上又叫Hook技術 1.前言對於一些特定需求使用也是非常無可奈何的，比如And

Java IO流系列（四）—— 從位元組流及其緩衝區到轉換流

前言：位元組流和前面的字元流在用法上大同小異，故而簡述帶過，不再詳述。主要是搞清楚兩者的差異，知道什麼時候用位元組流，比如說我們的圖片，System.in, System.out都是位元組流。本文將以複製圖片的小例子簡述位元組流及其緩衝區，最後引出轉換流與

java爬蟲系列（四）——動態網頁爬蟲升級版

專案地址

專案介紹

框架

結構

快速啟動

修改配置檔案

WebDriverPool.java

App.java

ComicDriver.java

ComicContentService.java

comic.sql

同系列文章

相關推薦