【垂直搜尋引擎搭建10】HtmlParser中Filter實踐

阿新 • • 發佈：2019-01-03

Filter種類：

判斷類Filter：

TagNameFilter
HasAttributeFilter
HasChildFilter
HasParentFilter
HasSiblingFilter
IsEqualFilter

邏輯運算Filter：

AndFilter
NotFilter
OrFilter
XorFilter

其他Filter：

NodeClassFilter
StringFilter
LinkStringFilter
LinkRegexFilter
RegexFilter
CssSelectorNodeFilter

這裡介紹一下TagNameFilter、HasChildFilter、HasAttributeFilter 和這幾個filter的組合使用方法。

package org.algorithm;

import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.HasChildFilter 
;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

import org.htmlparser.Node;


public class FilterImg {


    public static void main(String[] args) throws ParserException {
        Parser parser = new Parser("http://smart.huanqiu.com/roll/2016-08/9351546.html" 
);
        NodeFilter filter = new TagNameFilter("p");
        NodeList nodes = parser.extractAllNodesThatMatch(filter);
        Node source = nodes.elementAt(0);
        String sou = "";
        if(source!=null){
            sou = source.toString();
        }
        System.out.println(sou);
    }
}

場景一:
如果你想抓取頁面中帶有圖片的連結，如何實現？方法很簡單，採用一個連結的TagNameFilter，以及具有圖片的HasChildFilter，最後採用AndFilter將這兩個串聯起來，程式碼如下：

package org.algorithm;

import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.HasChildFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

import org.htmlparser.Node;


public class FilterImg {


    public static void main(String[] args) throws ParserException {
        Parser parser = new Parser("http://smart.huanqiu.com/roll/2016-08/9351546.html");
        NodeFilter filter = new AndFilter(new TagNameFilter ("a"),new HasChildFilter (new TagNameFilter ("img")));
        NodeList nodes = parser.extractAllNodesThatMatch(filter);
        Node source = nodes.elementAt(0);
        String sou = "";
        if(source!=null){
            sou = source.toString();
        }
        System.out.println(sou);
    }
}

場景二:
對於<div class=”f”>或<li class=”m”>這種型別的頁面程式碼，如何抓取裡面的內容。方式也不難，還是採用三個filter來實現，TagNameFilter，HasAttributeFilter 和AndFilter，程式碼如下：

package org.algorithm;

import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.HasChildFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

import org.htmlparser.Node;


public class FilterImg {


    public static void main(String[] args) throws ParserException {
        Parser parser = new Parser("http://smart.huanqiu.com/roll/2016-08/9351546.html");
        NodeFilter filter = new AndFilter(new TagNameFilter("p"),new HasAttributeFilter("title"));
        NodeList nodes = parser.extractAllNodesThatMatch(filter);
        Node source = nodes.elementAt(0);
        String sou = "";
        if(source!=null){
            sou = source.toString();
        }
        System.out.println(sou);
    }
}

【垂直搜尋引擎搭建10】HtmlParser中Filter實踐

Filter種類：判斷類Filter： TagNameFilter HasAttributeFilter HasChildFilter HasParent

【垂直搜尋引擎搭建15】HtmlParser中Filter方法（本地URL地址）

package org.algorithm; import java.io.BufferedReader; import java.io.File; import java.io.FileReader

【垂直搜尋引擎搭建14】HtmlParser中Filter方法（URL網路地址）

1、TagNameFilter import java.io.IOException; import org.htmlparser.Node; import org.htmlparser.NodeF

【垂直搜尋引擎搭建12】htmlparser簡介

1、相關資料 2、使用HtmlPaser的關鍵步驟（1）通過Parser類建立一個直譯器（2）建立Filter或者Visitor （3）使用parser根據filter或者visitor來取得所有符合條件的節點（4）對節點內容進行處理

【垂直搜尋引擎搭建11】使用htmlparser獲取頁面的字元編碼encoding

1，確定目標。對於html頁面來說，一般都有確定編碼的語句： <meta http-equiv=”Content-Type” content=”text/html; charset=gb2312″ /> 可以通過這一行的特徵來取出網頁的編碼。

【2017-11+10】 JS中正則表示式詳解

在JS的開發過程中，很多時候都需要驗證表單的正確性；使用正則表示式能夠很好的簡化表單的驗證過程。在JS中，內建了 RegExp 物件，用來進行正則匹配。一. RegExp 物件的使用

【Spark深入學習 -10】基於spark構建企業級流處理系統

變現大內存空間換時間 detail python 訪問量新版本 kafak 計算框架 ----本節內容------- 1.流式處理系統背景 1.1 技術背景 1.2 Spark技術很火 2.流式處理技術介紹 2.1流式處理技術概念 2.

【數據庫系列】MySql中的select的鎖表範圍

nbsp 範圍 nod 指定 lock 無數據才會 rdb sele 由於InnoDB預設的是Row-Level Lock，只有明確指定主鍵的時候MySql才會執行Row lock，否則MySql將會執行Table Lock. 1、明確指定主鍵則是行鎖 2、明確指定主鍵，

【正則表達式】linux中符號及正則表達式

lin int echo 字符 linux中 pri style pre 匹配【符號】 # 換行 \n echo -e "yy\nwy" yy wy 【正則表達式】 cat test.txt yy1%yy2,yy3,yy4%yy5 # [,%

【知了堂學習筆記】java中常用集合的理解

style out hset 篩選 arraylist list 內容必備 foreach 　　最近學習了java中常用集合類的一些知識，在這裏作為一只小白，我來談談我的理解，順帶總結知識點。引入：在沒有接觸之前，聽到集合，給我感覺是想到了數學中的集合一樣，裏面存放著一

【Java-POJO-設計模式】JavaEE中的POJO與設計模式中多型繼承的衝突

最近看《重構》談到利用OO的多型來優化 if else 和 switch 分支語句，但是我發現OO語法中的多型在使用框架的JavaEE中是無法實踐的。對此，我感到十分的疑惑，加之之前專案中有個“狀態模式”類的模組被頻繁改動的需求折磨要死，又去看了《設計模式》。《設計模式》中也是強調，使

【轉】【java源碼分析】Map中的hash算法分析

映射好的平衡樹結果希望表數十進制 name 定義全網把Map中的hash()分析的最透徹的文章，別無二家。 2018年05月09日 09:08:08 閱讀數：957 你知道HashMap中hash方法的具體實現嗎？你知道HashTable、Con

【swoole快速入門10】使用非同步客戶端

PHP提供的MySQL、CURL、Redis 等客戶端是同步的，會導致伺服器程式發生阻塞。Swoole提供了常用的非同步客戶端元件，來解決此問題。編寫純非同步伺服器程式時，可以使用這些非同步客戶端。非同步客戶端可以配合使用SplQueue實現連線池，以達到長連線複用的目的

【JAVA基礎知識學習】Java中的String，StringBuilder，StringBuffer三者的區別

　　最近在學習Java的時候，遇到了這樣一個問題，就是String,StringBuilder以及StringBuffer這三個類之間有什麼區別呢，自己從網上搜索了一些資料，有所瞭解了之後在這裡整理一下，便於大家觀看，也便於加深自己學習過程中對這些知識點的記憶，如果哪

【歸併排序,同步指標】陣列中的逆序對,兩個連結串列的第一個公共結點

面試題51:陣列中的逆序對在陣列中的兩個數字如果前面一個數字大於後面的數字，則這兩個數字組成一個逆序對。輸入一個數組，求出這個陣列中的逆序對的總數。分成長度1的子陣列，在合併之前統計相鄰子陣列之

【Linux之旅-10】Linux（Centos6.8）安裝Java環境（JDK）

一、下載JDK 1.1進入oracle官網，選擇需要的jdk版本，進入詳情頁二、安裝步驟 2.1將下載的壓縮包上傳到Linux系統的/opt目錄 2.2將壓縮包解壓，使用命令：

【opencv、機器學習】opencv中的SVM影象分類（二）

上一篇博文對影象分類理論部分做了比較詳細的講解，這一篇主要是對影象分類程式碼的實現進行分析。理論部分我們談到了使用BOW模型，但是BOW模型如何構建以及整個步驟是怎麼樣的呢？可以參考下面的部落格http://www.cnblogs.com/yxy8023ustc/p/33

【opencv、機器學習】opencv中的SVM影象分類（一）

一、影象分類概述本模組是用在影象內容識別的部分，影象分類是利用計算機對影象進行定量分析，把影象中的每個像元或區域劃歸為若干個類別中的一種，以代替人工視覺判讀的技術。從目視角度來說，對影象進行提高對比度、增加視覺維數、進行空間濾波或變換等處理的目的就是使人們能夠憑藉知識

【JAVA基礎小問題】java中實現多型的機制是什麼？

靠的是父類或介面定義的引用變數可以指向子類或具體實現類的例項物件，而程式呼叫的方法在執行期才動態繫結，就是引用變數所指向的具體例項物件的方法，也就是記憶體里正在執行的那個物件的方法，而不是引用變數的型別中定義的方法。

【Stimulsoft Reports Flex教程】報表中的使用者資料

下載Stimulsoft Reports Flex最新版本此示例顯示如何在報表中使用使用者資料並從程式碼中註冊它。要使用XML資料，首先應載入XML檔案並將其轉換為XML物件。為此，您可以使用StiTypeConverter.stringToXml（）靜態方法。執行此操作後，您可以使用報

【垂直搜尋引擎搭建10】HtmlParser中Filter實踐

相關推薦