Java爬蟲: Java爬蟲可能用得到的一些工具

阿新 • • 發佈：2019-01-01

用到的一些Maven依賴：

<dependencies>
    <!--Jsoup依賴-->
    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.10.2</version>
    </dependency>

    <!--mybatis依賴-->
    <dependency> 

        <groupId>org.mybatis</groupId>
        <artifactId>mybatis</artifactId>
        <version>3.4.1</version>
    </dependency>

    <!--mysql依賴-->
    <dependency>
        <groupId>mysql</groupId>
        <artifactId>mysql-connector-java</artifactId 
>
        <version>5.1.38</version>
    </dependency>

    <!--阿里巴巴的fastjson依賴-->
    <dependency>
        <groupId>com.alibaba</groupId>
        <artifactId>fastjson</artifactId>
        <version>1.2.7</version>
    </dependency>
</dependencies 
>

Java爬蟲可能用得到的一些工具

package pri.liyang.util;

import org.jsoup.Jsoup;

import java.io.*;
import java.net.HttpURLConnection;
import java.net.URL;
import java.net.URLConnection;

/**
 * Java爬蟲可能用得到的一些工具
 * Author：李小白
 */
public class JavaSpiderUtil {

    /**
     * 根據給定的URL，獲取相應的HTML內容，用於正則爬取資料
     * */
    public static String getHtmlByUrl(String requestUrl) throws Exception{
        URL url = new URL(requestUrl);
        //通過Jsoup獲取html內容，設定超時時間30秒
        String html = Jsoup.parse(url, 30*1000).toString();
        return html;
    }

    /**
     * 根據URL，傳送GET請求，獲取JSON資料(ResponseBody)
     * 適用於前後端分離的情況，返回的是ResponseBody的JSon資料
     * */
    public static String getResponseBodyByUrlAndMethodGet(String requestUrl) throws Exception{
        String response="";
        StringBuffer buffer = new StringBuffer();
        try{
            //例項化URL物件，通過String requestURL
            URL url = new URL(requestUrl);
            //呼叫URL的openConnection()，獲得HttpURLConnection例項
            HttpURLConnection urlCon= (HttpURLConnection)url.openConnection();
            //狀態碼是200，則連線成功
            if(200==urlCon.getResponseCode()){
                //獲得該HttpURLConnection的輸入流
                InputStream is = urlCon.getInputStream();
                InputStreamReader isr = new InputStreamReader(is,"utf-8");
                BufferedReader br = new BufferedReader(isr);

                String str = null;
                while((str = br.readLine())!=null){
                    //讀取該url的ResponseBody(通過輸入流轉換的BufferedReader)
                    buffer.append(str);
                }
                //根據開啟順序，倒序關流
                br.close();
                isr.close();
                is.close();
                //獲得ResponseBody的Json資料
                response = buffer.toString();
            }
        }catch(IOException e){
            e.printStackTrace();
        }
        return response;
    }

    /**
     * 判斷給定URL是否有效
     * */
    public static Boolean isValidURL(String requestURL){
        String html = null;
        try{
            html = URLTool.getHtmlByUrl(requestURL);
            System.out.println("網址有效：" + requestURL);
            return true;
        }catch(Exception e){
            System.out.println("網址無法使用，請檢查其有效性：" + requestURL);
            return false;
        }
    }

    /**
     * 根據URL下載圖片
     * */
    public static void download(String urlString, String filename,String savePath) throws Exception {
        // 構造URL
        URL url = new URL(urlString);
        // 開啟連線
        URLConnection con = url.openConnection();
        //設定請求超時為5s
        con.setConnectTimeout(5*1000);
        // 輸入流
        InputStream is = con.getInputStream();

        // 1K的資料緩衝
        byte[] bs = new byte[1024];
        // 讀取到的資料長度
        int len;
        // 輸出的檔案流
        File sf=new File(savePath);
        if(!sf.exists()){
            sf.mkdirs();
        }
        OutputStream os = new FileOutputStream(sf.getPath()+"\\"+filename);
        // 開始讀取
        while ((len = is.read(bs)) != -1) {
            os.write(bs, 0, len);
        }
        // 完畢，關閉所有連結
        os.close();
        is.close();

        System.out.println(filename + "   下載成功！");
    }

}

【java】KDTree，實現個java版本，留著日後可能用得上

Java版本KDTree 在KDTree中，只有n >> 2 ^ xn時，在明顯得有KDTCount << n， n是點的個數， xn是點的維數 KDTCount是在KDTree搜尋時計算距離的次數統計 package main; import

常用Js筆記，以後可能用得上

checkbox arc label item 下單 trigger all IT push <div class="order_head"> <table> <th

Java爬蟲: Java爬蟲可能用得到的一些工具

用到的一些Maven依賴： <dependencies>  <dependency> <groupId>org.jsoup</groupId&

用JAVA實現簡單爬蟲多執行緒抓取

在迴圈爬取得基礎上進行多執行緒爬蟲，本程式中使用的三個執行緒，執行緒為實現runnable介面，並使用物件鎖防止併發共同去訪問同一個物件。讓三個執行緒同時爬去同一個url並且得到的新的url不重複。 import java.io.*; import j

用JAVA實現一個爬蟲，爬取知乎的上的內容（程式碼已無法使用）

在學習JAVA的過程中寫的一個程式，處理上還是有許多問題，爬簡單的頁面還行，複雜的就要跪. 爬取內容主要使用URLConnection請求獲得頁面內容，使用正則匹配頁面內容獲得所需的資訊存入檔案，使用正則尋找這個頁面中可訪問的URL，使用佇列儲存未訪問的URL

玩大資料一定用得到的19款Java開源Web爬蟲

網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。今天將為大家介紹19款Java開源Web爬蟲，需要的小夥伴

用java實現的strstr函數的一些問題

符號 clas bsp 問題： pub spa 操作記錄位置用java實現過程如下： 1 public static int strstr(char[] cArray1,char[] cArray2){ 2 if(cArray1!=null &&

JAVA使用Gecco爬蟲抓取網頁內容

log pro 指定 get www. error 一個 log4j java類 JAVA 爬蟲工具有挺多的，但是Gecco是一個挺輕量方便的工具。先上項目結構圖。這是一個 JAVASE的 MAVEN 項目，要添加包依賴，其他就四個文件。log4j.propertie

11月14日互聯網技術-揭秘Java網絡爬蟲程序原理

dia uav zhong http and 網絡 dai 100% 聯網 %E6%9C%89100%E4%B8%AA%E4%BA%BA%E5%9B%B4%E6%88%90%E4%B8%80%E4%B8%AA%E5%9C%88%E4%BB%8E1%E5%BC%80%E5%A

java網絡爬蟲，亂碼問題終於完美解決

lose eat sdi style pan buffered cto utf-8 使用第一次寫爬蟲，被亂碼問題困擾兩天，試了很多方法都不可以，今天隨便一試，居然好了。在獲取網頁時創建了一個緩沖字節輸入流，問題就在這個流上，添加標紅代碼即可 BufferedReader

SuperSpider(簡書爬蟲JAVA版)

list 創建 ans sse connect mov format fill asn * 建站數據SuperSpider（簡書）* 本項目目的：* 為練習web開發提供相關的數據；* 主要數據包括：* 簡書熱門專題模塊信息、對應模塊下的熱門文章、* 文章的詳細信息、作

Java實現網頁爬蟲

public class Demo { public static void main(String[] args) throws Exception { // 本程式內部異常過多為了簡便，不一Try，直接拋給虛擬機器 Long StartTime = Sy

【暗戀不可恥但無用】QQ空間爬蟲-Java版（jzone-crawler）

完整原文（含原始碼與釋出版下載）：http://exp-blog.com/2018/09/15/pid-2347/ （轉載請註明出處，僅供分享學習，嚴禁用於商業用途）宣告在你心中是否有一個默默關注的小姐姐？你是否想知道在遇見她之前

百度百科多執行緒爬蟲(Java)

BaiduBaikeSpider 百度百科多執行緒爬蟲Java原始碼，資料儲存採用了Oracle11g 簡介採用了MyEclipes作為整合開發環境，應該是相容eclips 使用方法下載此原始碼之後使用（匯入或者 import）操作匯入此專案各個類介紹

Java：java爬蟲獲取動態網頁的資料

說明：只是分享一種解決方案，程式碼以及部分截圖不方便貼出，請諒解！前段時間一直在研究爬蟲，抓取網路上的特定的資料，如果只是靜態網頁就是再簡單不過了，直接使用Jsoup ： Document doc = Jsoup.connect(url).timeout(2000).

手把手教你搭建一個基於Java的分散式爬蟲系統

在不用爬蟲框架的情況下，我經過多方學習，嘗試實現了一個分散式爬蟲系統，並且可以將資料儲存到不同地方，類似 MySQL、HBase 等。因為此係統基於面向介面的編碼思想來開發，所以具有一定的擴充套件性，有興趣的朋友直接看一下程式碼，就能理解其設計思想。雖然程式碼目前

Java裸寫爬蟲技術，運用多執行緒技術，高效爬取某個醫療機構網站資料

最近喜歡上了資料的龐大的感覺，就爬取了一下某個醫療機構網站醫療資料，由於資料量龐大，只爬取了江西省的各個市的各個醫院的各個科室的各個科室。中各種資訊。其中用的持久層技術是hibernate框架，和用到一

java演算法-網路爬蟲抓取網頁並儲存

從一個URL中讀取網頁,如果是同一個網站的就儲存,URL裡面包含URL列表,繼續抓取,抓完全部使用多執行緒 A執行緒讀取URL內容 B執行緒存檔案 C執行緒解析URL 發現新URL從A執行緒讀取完的內容可以放到一個佇列裡面,B執行緒來讀取,C執行緒解析URL 問題,如果這個佇列

[Java]基於jsoup爬蟲實現（從智聯獲取工作資訊）

這幾天在學習Java解析xml，突然想到Dom能不能解析html，結果試了半天行不通，然後就去查了一些資料，發現很多人都在用Jsoup解析html檔案，然後研究了一下，寫了一個簡單的例項，感覺還有很多地方需要潤色，在這裡分享一下我的例項，歡迎交流指教！後續想通過Java把資料

Java多執行緒程式設計-（7）-使用執行緒池實現執行緒的複用和一些坑的避免

原文出自 : https://blog.csdn.net/xlgen157387/article/details/78253096 執行緒複用：執行緒池首先舉個例子：假設這裡有一個系統，大概每秒需要處理5萬條資料，這5萬條資料為一個批次，而這沒秒傳送的5萬條資料

Java爬蟲: Java爬蟲可能用得到的一些工具

相關推薦