Java網路爬蟲crawler4j學習筆記 Parser 類

阿新 • • 發佈：2018-12-26

簡介

Parser類負責將從伺服器得到的byte[]資料（儲存在Page物件裡）進行解析，按照binary,text,html的型別，分別呼叫相應的parseData類>。這裡有個容易混淆的點：類BinaryParseData，TextParseData，HtmlParseDat命名有點不好，它們表示的意思是pase之後得到的關於網頁的規範化的Data，而不是動名詞結構(parse data)。

原始碼

package edu.uci.ics.crawler4j.parser;

import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import 
 java.io.InputStream;
import java.io.OutputStream;
import java.io.PrintStream;
import java.io.UnsupportedEncodingException;
import java.util.HashSet;
import java.util.Set;

import javax.xml.transform.OutputKeys;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerConfigurationException;
import 
 javax.xml.transform.sax.SAXTransformerFactory;
import javax.xml.transform.sax.TransformerHandler;
import javax.xml.transform.stream.StreamResult;

import edu.uci.ics.crawler4j.url.WebURL;

// Tika是一個內容分析工具，自帶全面的parser工具類，
// 能解析基本所有常見格式的檔案，得到檔案的metadata，content等內容，返回格式化資訊
import org.apache.tika.metadata.Metadata;
import 
 org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

//二進位制檔案解析類
public class BinaryParseData implements ParseData {

  private static final Logger logger = LoggerFactory.getLogger(BinaryParseData.class);
  private static final String DEFAULT_ENCODING = "UTF-8";   // 預設編碼utf-8
  private static final String DEFAULT_OUTPUT_FORMAT = "html";   //預設輸出格式html

  // Creates an auto-detecting parser instance using the default Tika configuration.
  private static final Parser AUTO_DETECT_PARSER = new AutoDetectParser();
  private static final SAXTransformerFactory SAX_TRANSFORMER_FACTORY = (SAXTransformerFactory) SAXTransformerFactory.newInstance();

  // Parse context. Used to pass context information to Tika parsers.
  private final ParseContext context = new ParseContext();
  // 頁面的所有外鏈
  private Set<WebURL> outgoingUrls = new HashSet<>();

  // 從二進位制資料中得到的html內容
  private String html = null;

  public BinaryParseData() {
    context.set(Parser.class, AUTO_DETECT_PARSER);
  }

  public void setBinaryContent(byte[] data) {
    InputStream inputStream = new ByteArrayInputStream(data);
    ByteArrayOutputStream outputStream = new ByteArrayOutputStream();

    try {
      TransformerHandler handler = getTransformerHandler(outputStream, DEFAULT_OUTPUT_FORMAT, DEFAULT_ENCODING);
      AUTO_DETECT_PARSER.parse(inputStream, handler, new Metadata(), context);

      // Hacking the following line to remove Tika's inserted DocType
      String htmlContent = new String(outputStream.toByteArray(), DEFAULT_ENCODING).replace("http://www.w3.org/1999/xhtml", "");
      setHtml(htmlContent);
    } catch (Exception e) {
      logger.error("Error parsing file", e);
    }
  }

  /**
   * Returns a transformer handler that serializes incoming SAX events to
   * XHTML or HTML (depending the given method) using the given output encoding.
   *
   * @param encoding output encoding, or <code>null</code> for the platform default
   */
  private static TransformerHandler getTransformerHandler(OutputStream out, String method, String encoding)
        throws TransformerConfigurationException {

    TransformerHandler transformerHandler = SAX_TRANSFORMER_FACTORY.newTransformerHandler();
    Transformer transformer = transformerHandler.getTransformer();
    transformer.setOutputProperty(OutputKeys.METHOD, method); // html
    //  the Transformer may add additional whitespace when outputting the result tree;
    transformer.setOutputProperty(OutputKeys.INDENT, "yes");  

    if (encoding != null) {
      transformer.setOutputProperty(OutputKeys.ENCODING, encoding);
    }

    transformerHandler.setResult(new StreamResult(new PrintStream(out)));
    return transformerHandler;
  }

  /** @return Parsed binary content or null */
  public String getHtml() {
    return html;
  }

  public void setHtml(String html) {
    this.html = html;
  }

  @Override
  public Set<WebURL> getOutgoingUrls() {
    return outgoingUrls;
  }

  @Override
  public void setOutgoingUrls(Set<WebURL> outgoingUrls) {
    this.outgoingUrls = outgoingUrls;
  }

  @Override
  public String toString() {
    return (html == null || html.isEmpty()) ? "No data parsed yet" : getHtml();
  }
}

Java網路爬蟲crawler4j學習筆記 Parser 類

簡介 Parser類負責將從伺服器得到的byte[]資料（儲存在Page物件裡）進行解析，按照binary,text,html的型別，分別呼叫相應的parseData類>。這裡有個容易混淆的點：類BinaryParseData，TextParseData

Java網路爬蟲crawler4j學習筆記 AuthInfo類

原始碼 package edu.uci.ics.crawler4j.crawler.authentication; import javax.swing.text.html.FormSubmitEvent.MethodType; import java.ne

Java網路爬蟲crawler4j學習筆記 CrawlConfig類

簡介 CrawlConfig類存放著爬蟲的基本配置，可供使用者在初始化爬蟲時進行配置。CrawlConfig類也向其他的功能模組提供它們需要的爬蟲配置資訊。原始碼 /** * Licensed to the Apache Software Fo

Java網路爬蟲crawler4j學習筆記 PageFetcher類

簡介 PageFetcher類主要是HTTPClient包的運用。需要了解其API 程式碼 package edu.uci.ics.crawler4j.fetcher; import java.io.IOException; import java.io

Java網路爬蟲crawler4j學習筆記 HostDirectives類

原始碼 package edu.uci.ics.crawler4j.robotstxt; // 存放當前Host的robot.txt指令 public class HostDirectives

Java網路爬蟲crawler4j學習筆記 BasicAuthInfo類

原始碼 package edu.uci.ics.crawler4j.crawler.authentication; import javax.swing.text.html.FormSubmit

Java網路爬蟲crawler4j學習筆記 RobotstxtParser類

原始碼 package edu.uci.ics.crawler4j.robotstxt; import java.util.StringTokenizer; // 根據網站的robot.txt文字，構建allows和disallow集合 public

Java網路爬蟲crawler4j學習筆記 IdleConnectionMonitorThread類

簡介 IdleConnectionMonitorThread類負責監控httpclient中的連線，進行清理操作。同時提供終止爬蟲的功能。原始碼 package edu.uci.ics.cr

Java網路爬蟲crawler4j學習筆記 URLCanonicalizer類

原始碼 package edu.uci.ics.crawler4j.url; import java.net.MalformedURLException; import java.net.URI; import java.net.URISyntaxExc

Java網路爬蟲crawler4j學習筆記 UrlResolver類

原始碼 package edu.uci.ics.crawler4j.url; // 將相對地址轉化為絕對地址（具體內容參考文件http://www.faqs.org/rfcs/rfc1808.html） public final class UrlRes

Java網路爬蟲crawler4j學習筆記 PageFetchResult類

原始碼 package edu.uci.ics.crawler4j.fetcher; import java.io.EOFException; import java.io.IOException; import org.apache.http.Hea

Java網路爬蟲crawler4j學習筆記 Page 類

簡介 Page 類解析httpClient包中的Entity物件，獲取當前頁面的資訊，包括url(轉換為WebURl)，response的資訊（status code, response header等），解析後的內容資訊等等。原始碼 packa

Java網路爬蟲crawler4j學習筆記 Configurable類

簡介 Configurable抽象類包含了一個爬蟲配置資訊物件config，爬蟲其他的功能模組有可能需要用到這些配置資訊。原始碼 package edu.uci.ics.crawler4j.

Java網路爬蟲crawler4j學習筆記 RobotstxtConfig類

原始碼 package edu.uci.ics.crawler4j.robotstxt; // robot.txt的配置類 public class RobotstxtConfig { /

Java網路爬蟲crawler4j學習筆記 RuleSet類

原始碼 package edu.uci.ics.crawler4j.robotstxt; import java.util.SortedSet; import java.util.TreeSet;

Java網路爬蟲crawler4j學習筆記 FormAuthInfo類

原始碼 package edu.uci.ics.crawler4j.crawler.authentication; import javax.swing.text.html.FormSubmit

Java網路爬蟲crawler4j學習筆記 SAX解析工具類

ExtractedUrlAnchorPair 類 package edu.uci.ics.crawler4j.parser; // 將html文字中的超連結標籤，拆分為href（超連結）,anchor（錨文字）,tag（HTML標籤）各部分 public

Java網路爬蟲crawler4j學習筆記 exceptions

簡介 edu.uci.ics.crawler4j.crawler.exceptions包比較簡單，裡面都是一些自定義的異常類。edu.uci.ics.crawler4j.parser包裡面也有一個異常

Java網路爬蟲crawler4j學習筆記網頁內容轉碼解析

簡介網頁內容解析相關的類和介面位於包edu.uci.ics.crawler4j.parser中，用於拆分解析html網頁的各部分內容。下面的Parser的基本作用就是從各種各樣的資料（二進位制，文字）中抽取出我們需要的html頁面。原始碼 Pars

用網路爬蟲爬取新浪新聞----Python網路爬蟲實戰學習筆記

今天學完了網易雲課堂上Python網路爬蟲實戰的全部課程，特在此記錄一下學習的過程中遇到的問題和學習收穫。我們要爬取的網站是新浪新聞的國內版首頁下面依次編寫各個功能模組 1.得到某新聞頁面下的評論數評論數的資料是個動態內容，應該是存在伺服器

Java網路爬蟲crawler4j學習筆記 Parser 類

簡介

原始碼

相關推薦