Java 通過gecco快速搭建一個爬蟲框架

阿新 • • 發佈：2018-12-27

Java gecco 爬蟲Demo

Gecco是一款用java語言開發的輕量化的易用的網路爬蟲框架。
官網：http://www.geccocrawler.com/

1.匯入依賴

<dependency>
            <groupId>com.geccocrawler</groupId>
            <artifactId>gecco</artifactId>
            <version>1.0.8</version>
</dependency>

2.建立爬蟲類

介面HtmlBean說明該爬蟲是一個解析html頁面的爬蟲（gecco還支援json格式的解析）

註解@Gecco告知該爬蟲匹配的url格式(matchUrl)和內容抽取後的bean處理類（pipelines處理類採用管道過濾器模式，可以定義多個處理類）。

import com.geccocrawler.gecco.GeccoEngine;
import com.geccocrawler.gecco.annotation.Gecco;
import com.geccocrawler.gecco.annotation.HtmlField;
import com.geccocrawler.gecco.annotation.Request;
import com.geccocrawler.gecco.annotation.Text;
import com.geccocrawler.gecco.request.HttpRequest;
import com.geccocrawler.gecco.spider.HtmlBean;

import java.util.List;

/**
 * @Auther: lianjc
 * @Date: 2018/11/19 0019 09:54
 * @Description:
 */
@Gecco(matchUrl = "https://blog.csdn.net/u013396133/article/details/84255590",pipelines = "testPipelines")
public class Test implements HtmlBean {

    @Request
    private HttpRequest request;


    @Text
    @HtmlField(cssPath = "#mainBox > main > div.blog-content-box > div > div > div.article-title-box > h1")
    private String title;

    @HtmlField(cssPath = "#content_views > p:nth-child(5)")
    private String content;

    @HtmlField(cssPath = "#mainBox > main > div.blog-content-box > article")
    private List<String> contents;


    public List<String> getContents() {
        return contents;
    }

    public void setContents(List<String> contents) {
        this.contents = contents;
    }

    public String getTitle() {
        return title;
    }

    public void setTitle(String title) {
        this.title = title;
    }

    public HttpRequest getRequest() {
        return request;
    }

    public void setRequest(HttpRequest request) {
        this.request = request;
    }

    public String getContent() {
        return content;
    }

    public void setContent(String content) {
        this.content = content;
    }
    
    }

2.建立一個Pipelines(通道),用來接收爬來的資料

import com.geccocrawler.gecco.annotation.PipelineName;
import com.geccocrawler.gecco.pipeline.Pipeline;

/**
 * @Auther: lianjc
 * @Date: 2018/11/22 0022 11:29
 * @Description:
 */
@PipelineName(value="testPipelines")
public class TestPipelines implements Pipeline<Test> {
    @Override
    public void process(Test test) {

        System.out.println("獲取到的標題:"+test.getTitle());

        System.out.println(test.getContent());

        for (int i = 0; i <test.getContents().size() ; i++) {

            System.out.println(test.getContents().get(i));
        }

    }
}

3.main方法測試

public static void main(String[] args) {
        GeccoEngine.create()
                //Gecco搜尋的包路徑
                .classpath("com.higo.model")
                //開始抓取的頁面地址
                .start("https://blog.csdn.net/u013396133/article/details/84255590")
                //開啟幾個爬蟲執行緒
                .thread(1)
                //單個爬蟲每次抓取完一個請求後的間隔時間
                .interval(2000)
                .run();
    }

4.效果圖
在這裡插入圖片描述

5.程式碼解讀

介面HtmlBean說明該爬蟲是一個解析html頁面的爬蟲（gecco還支援json格式的解析）
註解@Gecco告知該爬蟲匹配的url格式(matchUrl)和內容抽取後的bean處理類
（例如：http://www.123.com?id={id}&user={user} ）定義url的格式通過 @RequestParameter傳遞引數
@Gecco中pipelines屬性來定義輸出通道可以自己來定義通道也可以輸出到控制檯
如：pipelines=“consolePipeline”
註解@RequestParameter可以注入url中的請求引數，如@RequestParameter(“user”)表示匹配url中的{user}
註解@Request 發起一個request請求
註解@Text表示獲取@HtmlField抽取出來的元素的text內容
註解@Html表示獲取@HtmlField抽取出來的元素的html內容（如果不指定預設為@Html）
GeccoEngine表示爬蟲引擎，通過create()初始化，通過start()/run()執行。可以配置一些啟動引數如：掃描@Gecco註解的包名classpath；開始抓取的url地址star；抓取執行緒數thread；抓取完一個頁面後的間隔時間interval(ms)等

6.注意

GeccoEngine.classpath()指定的必須是爬蟲類的目錄否則會報 can’t match url錯誤
以上註解都是來自gecoo包的比如 @Request,@RequestParameter
[email protected]的cssPath 是什麼？
指定掃描的路徑吧，類似於Jquery的選擇器
獲取技巧可以開啟瀏覽器除錯臺

右鍵選單的Copy - Copy selector

Java 通過gecco快速搭建一個爬蟲框架

Java gecco 爬蟲Demo Gecco是一款用java語言開發的輕量化的易用的網路爬蟲框架。官網：http://www.geccocrawler.com/ 1.匯入依賴 <dependency> <groupI

如何快速搭建一個ssm框架專案

摘要：最近開始著手做一個基於SSM（SpringMVC，Spring，Mybatis）框架的商城專案，學了的知識沒有歸納總結很快就要遺忘了。今天寫這篇部落格其一做總結，方便自己後期再用，其二作為知識分享，接下來讓我們步入主題。首先建立一個Maven專案（具體如何建立，請看

快速搭建一個SSH框架

介紹以下將詳細描述struts2+hibernate的專案搭建方法,其它的專案組合如(springmvc+iBatis,struts2+jdbc)可以參考如下步驟. 注意: 請使用firefox或是IE7閱讀本wiki,IE6顯示有問題環境介紹 IDE: MyEclipse 6.5資料庫: My

如何快速搭建一個ssm框架

首先我們需要建立一個maven專案 1.右鍵 new maven project 第一個勾選然後下一步 groupid 可以寫com.xxx.xxx 之類的 artifaceid 寫專案名 xxx web專案選擇打war包然後下一步就ok 2.專案中少w

通過ELK快速搭建一個你可能需要的集中化日誌平臺

在專案初期的時候，大家都是趕著上線，一般來說對日誌沒有過多的考慮，當然日誌量也不大，所以用log4net就夠了，隨著應用的越來越多，日誌散落在各個伺服器的logs資料夾下，確實有點不大方便，這個時候就想到了，在log4net中配置 mysql的資料來源，不過這裡面有一個坑，

通過express快速搭建一個node服務

Node.js 是一個基於Chrome JavaScript 執行時建立的一個平臺。可以理解為是執行在服務端的 JavaScript。如果你是一個前端程式設計師，不太擅長像PHP、Python或Ruby等動態程式語言，想建立自己的服務，那麼Node.js是一個非常好的選擇。本文將通過幾個簡要步驟，運用expr

如何快速搭建一個微服務架構-咕泡學院Java架構VIP試聽視訊

如何快速搭建一個微服務架構-咕泡學院Java架構VIP試聽視訊https://pan.baidu.com/s/1I4fs5juFNY_sV8yc_zwcYQ 密碼：bsvl 咕泡學院Java架構師每日錄播視訊索取加QQ群：788692365咕泡學院Java架構師往期視訊

快速搭建一個自己的伺服器詳解（java環境）

一. 伺服器的購買 1. 我選擇的是阿里雲的伺服器，學生價9.5元一個月，百度直接搜尋阿里雲，然後點選右上角登入，推薦大家用支付寶掃碼登入，方便快捷。阿里雲官網的東西比較多，登入後我找了很久也沒有找到學生伺服器在哪裡賣，最後在諮詢裡找到了這個網址，https://pro

快速搭建一個Quartz定時任務【轉載，好文，值得收藏，親身試用效果不錯】 Quartz.NET 入門

Quartz.NET 入門概述 Quartz.NET是一個開源的作業排程框架，非常適合在平時的工作中，定時輪詢資料庫同步，定時郵件通知，定時處理資料等。 Quartz.NET允許開發人員根據時間間隔（或天）來排程作業。它實現了作業和觸發器的多對多關係，還能把多

NodeJS 最快速搭建一個HttpServer anywhere

anywhere 會自動開啟index.html npm install anywhere -g cd 想要以某個路徑作為靜態檔案伺服器的根目錄分享，只需要在該目錄下執行： anywhere 預設不新增 -s 命令會在命令敲擊後，同時開啟瀏覽器訪問 http://i

如何從零開始搭建一個Truffle框架的DAPP應用

1 摘要開發實戰|3步教你在以太坊上開一家寵物店（附流程+程式碼）介紹瞭如何獲取寵物商店的TRUFLLE框架程式碼，並完成部署的過程。但是這個是已經成熟的程式碼框架，一般使用者要開發自己的專案。那如何借用寵物商店成熟框架完成自有DAPP的搭建呢？我們以tiny熊老師的一

使用 Python 10分鐘教你快速搭建一個部落格

10個優秀的程式設計師裡，有9個人都有寫部落格的習慣。這是非常好的習慣，它使得知識得以提煉，轉輸出為輸入，在提升自己的同時，還能利用網際網路易傳播的特性，將知識分享給每一個熱愛學習的人。 &n

快速搭建一個SpringBoot入門專案

在官網建立專案 https://start.spring.io 下載到本地解壓用idea開啟編寫HelloWorld服務 @RestController public class HelloController { @RequestMapping("/hello")

快速搭建一個本地的FTP伺服器

https://www.cnblogs.com/popfisher/p/7992036.html 第一步：配置IIS Web伺服器 1.1 控制面板中找到“程式”並開啟 1.2 程式介面找到“啟用或關閉Windows功能”並開啟 1.3 上面兩步也可以簡化為一步：按【Win +

如何快速掌握一個ui框架

當今前端界，各種ui框架數不勝數，而且各個大廠家，都有一套自己的框架在那擺著，這讓我們前端開發者們情何以堪。如此多的前端ui框架，我們該如何選擇呢，如何快速掌握應用到實際開發中呢？特別是我們新手同學，剛開始接觸框架時不是特別的理解，也不大會用。這便是我們今天討論的問題。框架的意義框架的意義，什麼是框架

快速搭建一個開源的Git伺服器

有的時候，我們需要搭建一個內部的Git伺服器，作為自己的研究或者暫時作專案程式碼的存放地，這個時候，我們可以考慮使用一個Gitblit，非常方便和好用。具體的搭建步驟如下： 1.下載安裝檔案到網站 http://gitblit.com/上下載一個安裝檔案，直接下載GO版本

【區塊鏈】1 HyperLedger快速搭建一個Fabric1.0環境執行測試e2e_cli專案

1 Ubuntu環境搭建（win7 64位 + VMWare14 + Ubuntu16.04） 2 Docker安裝首先sudo apt install curl 使用阿里提供的映象進行Docker的安裝，輸入curl -fsSL https://

如何快速搭建一個微服務架構

何謂微服務架構的簡單模式？相對於大型網際網路平臺動輒幾萬併發的訪問量，或者每天多次的線上版本釋出，絕大多數企業和專案並沒有這樣的需求。他們關注的是如何更好地提高開發效率，如何更快地實現新需求，如何更便利地運維，等等。微服務架構的簡單模式就是可以滿足以上需求的軟體架構方

如何在win10中快速搭建一個本地的ftp伺服器

一、快速搭建一個本地的ftp伺服器 1.1在控制面板中找到“程式”並開啟【】 1.2在程式介面找到“啟用”或者關閉Windows功能開啟 1.3點選“啟用”或者關閉Windows功能彈出視窗後，找到Internet Information service並且

NodeJS 最快速搭建一個HttpServer

node.js最快速搭建一個HttpServer 先下載 http-server npm install http-server -g 在目錄裡放一個index.html 1 2 cd D:\Web\Interna

Java 通過gecco快速搭建一個爬蟲框架

Java gecco 爬蟲Demo

相關推薦