gecco爬蟲多個HtmlBean 匹配同一個matchUrl的問題

阿新 • • 發佈：2019-01-02

兩個爬蟲HtmlBean如下：

第一個HtmlBean，獲取小說內容

@Gecco(
		matchUrl="http://www.xs2345.com/read/18/18914/([^0{1}]|{index}).html",
		pipelines="xybwPipeline"
		)
/**
* 獲取小說內容
*/
public class XYBW implements HtmlBean{
	/**
	 * 
	 */
	private static final long serialVersionUID = 2833184596055251729L;

	@RequestParameter
	private Long index;
	
	@Text
	@HtmlField(cssPath=".read_m > h1:nth-child(2) > a:nth-child(1)")
	private String bookName;
	@Text
	@HtmlField(cssPath=".ydleft > h2:nth-child(2)")
	private String chapterName;
	@Html
	@HtmlField(cssPath=".yd_text2")
	private String content;
	
	
	
	public Long getIndex() {
		return index;
	}
	public void setIndex(Long index) {
		this.index = index;
	}
	public String getBookName() {
		return bookName;
	}
	public void setBookName(String bookName) {
		this.bookName = bookName;
	}
	public String getChapterName() {
		return chapterName;
	}
	public void setChapterName(String chapterName) {
		this.chapterName = chapterName;
	}
	public String getContent() {
		return content;
	}
	public void setContent(String content) {
		if (content != null && !content.isEmpty()) {
			content = content.replaceAll(" ", "");
			content = content.replaceAll(" ", "");
			content = content.replaceAll("<br/>", "");
			content = content.replaceAll("<br>", "");
			content = content.replaceAll("\\n{2}", "\n");
			this.content = content;
		}else{
			this.content = "";			
		}
	}
}

第二個HtmlBean ，獲取小說目錄

@Gecco(
		matchUrl="http://www.xs2345.com/read/18/18914/0.html",
		pipelines="xybwIndexPipeline"
		)
public class XYBWIndex implements HtmlBean{
	private static final long serialVersionUID = 6065963771104230481L;

	@Text
	@HtmlField(cssPath=".ml_title > h1:nth-child(1)")
	private String bookName;
	
	@Text
	@HtmlField(cssPath=".ml_main > dl > dd > a")
	private List<String> chapterNameList;
	
	@Href(click=true)
	@HtmlField(cssPath=".ml_main > dl > dd > a")
	private List<String> chapterList;
	
	public String getBookName() {
		return bookName;
	}
	public void setBookName(String bookName) {
		this.bookName = bookName;
	}
	public List<String> getChapterNameList() {
		return chapterNameList;
	}
	public void setChapterNameList(List<String> chapterNameList) {
		this.chapterNameList = chapterNameList;
	}
	public List<String> getChapterList() {
		return chapterList;
	}
	public void setChapterList(List<String> chapterList) {
		this.chapterList = chapterList;
	}
	
}

注意相應的處理Pipeline，這裡忽略不提

啟動抓取

HttpRequest request_xybw = new HttpGetRequest();
		request_xybw.setUrl("http://www.xs2345.com/read/18/18914/0.html");
		request_xybw.setCharset("gbk");
		
		GeccoEngine.create()
		.classpath("com.xfire")
		.start(request_xybw)
		.thread(1)
		.interval(1000)
		.mobile(false)
		.start();

分析：

剛開始出現問題在於

XYBW 的

matchUrl="http://www.xs2345.com/read/18/18914/{index}.html"

XYBWIndex 的

matchUrl="http://www.xs2345.com/read/18/18914/0.html"

當執行時第一個HtmlBean被匹配後（就是

http://www.xs2345.com/read/18/18914/0.html

先被

http://www.xs2345.com/read/18/18914/{index}.html

匹配了，

），spider執行就結束了

所以本想獲取小說目錄的HtmlBean 沒有被處理。

將XYBW 的matchUrl改成如下就解決了這個問題

matchUrl="http://www.xs2345.com/read/18/18914/([^0{1}]|{index}).html"

但我覺得更好的解決方法是將所有的匹配HtmlBean都處理，將Spider中單獨獲取一個匹配，改成獲取所有匹配的陣列

//匹配SpiderBean
			currSpiderBeanClass = engine.getSpiderBeanFactory().matchSpider(request);

gecco爬蟲多個HtmlBean 匹配同一個matchUrl的問題

兩個爬蟲HtmlBean如下：第一個HtmlBean，獲取小說內容 @Gecco( matchUrl="http://www.xs2345.com/read/18/18914/([^0{1}]|{index}).html", pipelines="xybwPip

Switch Case語句中多個值匹配同一個代碼塊的寫法

har com arch mssql pre html www ase cas switch ($p) { case ‘home‘: case ‘‘: $current_home = ‘current‘; break

Nginx多個location匹配

localhost 效果匹配處理請求順序通用 static cal htm 多個 location 配置的情況下匹配順序為（參考資料而來，還未實際驗證，試試就知道了，不必拘泥，僅供參考）: 首先匹配 = 其次匹配 ^~ 其次是按文件中順序的正則匹配最後是交給 /

python中多個QPushButton響應同一個事件

python中多個QPushButton響應同一個事件注：在python2 的環境下執行 #! -*- coding:utf-8 -*- from PyQt5.QtWidgets import QApplication, QWidget, QVBoxLayout, QHBoxLayou

Nginx反向代理實現多個域名指向同一個ip的不同網站解決方法

一個伺服器需要掛載多個專案【重點是都能通過域名訪問】實現原理： 1.當前市面上看到的一些伺服器，開放的埠一般都要求為 '80' 埠所以80埠成了商用埠 2.域名的繫結是繫結一個一般是繫結你的伺服器ip地址 3.使用伺服器的80埠攔截訪問的域名是什麼跳轉至伺服器的其他舉例只有一臺伺服器

關於多個指標指向同一個物件的bug分析

有一個類A class A { 　　bool m_bIslink; }; 在類B中new了一個A置m_bIslin = true，new和delete都由B來負責，同時類C中也需要用到A的指標。於是在C中就會儲存一個A的指標物件。C的解構函式中會判斷A::m_bIslink==t

grok正則表示式一行多個結果匹配

原理介紹 grok內建了一些常用正則的表示式，其在grok-pattern檔案中；你可以自己定義一些喜歡的正則表示式，用於匹配自己需求的內容：例如：中國式的時間匹配2018/9/11 9:46:32 TIMESTAMP_CHS %{YEAR}/%{MO

Android Studio 中多個module引用同一個jar（或者衝突解決）解決方案

在Android開發過程中我們多多少少會引入module，不僅會提高專案的開發進度，而且專案管理起來相當方便。但是同一個專案中引入多個module引入同一個jar或有衝突的jar時候在編譯的時候會出現錯誤，這些錯誤往往讓人抓狂。在解決這些錯誤之前，讓我們先了解下關

一臺伺服器部署多個專案使用同一個redis服務導致衝突解決辦法

本人有多個專案部署在同一臺伺服器，共用一個redis服務，而且這幾個專案的結構也是一直的，都用redis快取了shiro許可權資料，導致訪問專案A，專案B報無許可權，反之亦然，通過對redis的瞭解，現找到解決辦法，如下： redis存在0-15共16個庫，在spring配

websocket開啟多個頁面訪問同一個連線會失效的問題解決方法

當時開發時用websocket和mq實現從微信裡取資料使用mq接收在傳送到websocket，因為沒有用過websocket遇到了很多坑，查找了很多方法也沒有解決掉，現在把我解決的方法分享給大家 1.我使用的是springboot微服務框架實現的websocket，需要匯入jar： org

IDEA 匯入多個Module，多個Module在同一個Project 下顯示

使用IDEA 過程中遇到的問題，我想一一記錄下來並希望對後面使用IDEA時遇此問題的人到有所幫助。 1、開啟IDEA , 點選右上角 File ---> Project Structure （快捷鍵：Ctrl + Alt + Shi

SpringMVC 對映器Mapping【多個請求交給同一個Action】，不經過action直接跳轉到介面

1） org.springframework.web.servlet.handler.BeanNameUrlHandlerMapping(核心) 將程式設計師定義的Action所對應的<bean

cocos2dx 多個精靈執行同一個動作

最近在專案中出現了在一個場景中有多個精靈同一時刻執行同一個動作，直接使用runAction發現只有最後一個精靈執行了動作。最後發現一個動作同時只能給一個精靈執行；後來的解決方法使用 clone()將

多個變數指向同一個引用($b = &$a)

引用是什麼？引用就是多個變數指向同一個記憶體區域地址。如我們經常用的例項一個類，就是記憶體中開闢了一個區域儲存例項的類，例項賦值給變數就是讓這個變數指向這個記憶體區域。多個變數指向同一個引用有什麼好處？節約了記憶體空間，多個變數指向同一個記憶體地址，

Qml實用技巧：將樣式style從物件中獨立出來，可使多個按鈕載入同一個樣式

需求多個按鈕使用同一個樣式原理寫成元件形式（在或不在當前檔案中），需要樣式時，Button載入style即可程式碼 Item { Rectangle {

IDEA如何把多個專案放在同一個工作空間下

開啟IntelliJ IDEA編譯器，點選選單 File->Open，選擇工作空間根目錄點選OK後開啟介面如下：開啟後，發現IDEA並沒有自動識別Maven專案，這時候，需要手動在IDEA右側的Maven Projects欄中新增專案的pom.xml檔案

基於Gradle實現多個專案依賴同一個公共庫，方便維護

方法1： 1.在當前專案的settings.gradle下 include ‘:commonModule’ project(‘:commonModule’).projectDir = new Fi

用ON_COMMAND_RANGE實現多個事件響應同一個函式

引數： id1 : 在連續範圍的命令 ID 的命令 ID。 id2 :命令 ID。連續範圍的命令 ID 的結尾。 memberFxn :命令訊息對映處理程式函式的名稱。備註：範圍與 id1 的 ID 與 id2的開頭和末尾。使用 ON_COMMA

SparkSQL實現查詢Hive表集合中的多個元素匹配

#encodig=utf-8 # _*_ coding:utf-8 _*_ # Writer : byz # dateTime : 2016-08-3 import sys sys.path.append("/home/mysql1/anqu/python/c

Aop多個切面切同一個地方的優先順序問題

以前就想過這個問題，如果多個切面切了同一個地方，那麼多個切面的優先順序是怎麼樣的呢，只不過這個念頭以前在大腦裡面一閃而過，沒有深究，今天看了一個視訊講到了這個問題。我才知道任何細節其實背後都隱藏著知識點，偉大的spring其實早就想到了這一點。它給我們提供了一些解決辦

gecco爬蟲多個HtmlBean 匹配同一個matchUrl的問題

相關推薦