Java 寫的簡單網路爬蟲

阿新 • • 發佈：2022-04-04

覺得好玩，昨天就研究了一下java爬蟲。

在網上搜索了一些樣例研究了一下。仿造寫了一個簡單的爬蟲，可以自動爬取某本小說的章節（需要自定義正則表示式），利用多執行緒+鎖可以爬的更快，也可以同時爬多本書。

目前針對的是起點小說網的正則，利用set和list存需要爬的連結和已經爬過的連結，再用map存某本書的名字，已經爬取的章節數等等，然後寫到檔案裡面。

兩個類實現

AllUrl.java

import java.io.*;
import java.net.URL;
import java.net.URLConnection;
import java.text.SimpleDateFormat;
 
import java.util.*;

public class AllUrl {
    public static int maxDepth = 100;//章節數
    public static int maxThread = 3;//最大執行緒數
    public static List<String> waitUrl = new ArrayList<>();
    public static Set<String> overUrl = new HashSet<>();
    public static Map<String,Integer> UrlDepth = new 
 HashMap<>();
    public static Map<String,String> bookName = new HashMap<>();
    public static String savePath = "E:\\起點book\\";
    public static synchronized void workUrl(String url,int depth){
        if(depth > AllUrl.maxDepth){
            System.out.println("《"+bookName.get(url)+"》爬取達到設定的章節數，停止爬取。");
            SimpleDateFormat formatter 
= new SimpleDateFormat("yyyy-MM-dd 'at' HH:mm:ss z");
            Date date = new Date(System.currentTimeMillis());
            System.out.println(formatter.format(date));
            Thread.currentThread().interrupt();
        }else{
            if(AllUrl.overUrl.contains(url)){
                System.out.println(url+"已經爬取過");
            }else{
                try{
                    URL url1 = new URL(url);//新連結
                    URLConnection urlConnection = url1.openConnection();//連結 新連結
                    InputStream is = urlConnection.getInputStream();//獲取連結的內容
                    BufferedReader br = new BufferedReader(new InputStreamReader(is,"UTF-8"));//讀取轉換獲取的內容到緩衝區
                    StringBuilder stringBuilder = new StringBuilder();//讀取緩衝區內容
                    String tempString ;
                    while((tempString = br.readLine()) != null){
                        stringBuilder.append(tempString);//追加字元到stringBuilder
                    }

                    //這裡的正則表示式針對的是https://www.qidian.com/ 起點中文網

                    String sStart = "class=\"read-content j_readContent\"", tem = "<p>", Sin = "";
                    StringBuilder nextUrl = new StringBuilder("<a id=\"j_chapterNext\" href=\"");
                    int start = stringBuilder.indexOf(sStart), end = stringBuilder.indexOf(tem, start + 1), AllEnd = stringBuilder.indexOf("<div class=\"admire-wrap\">");
                    int nextUrlStart = stringBuilder.indexOf(String.valueOf(nextUrl));
                    nextUrlStart += nextUrl.length();
                    int nextUrlEnd = stringBuilder.indexOf("\"", nextUrlStart + 1);
                    nextUrl.setLength(0);//清空
                    nextUrl.append("https:");//加字首
                    nextUrl.append(stringBuilder.substring(nextUrlStart, nextUrlEnd));//加字尾
                    addUrl(nextUrl.toString(),depth+1,bookName.get(url));
                    start += sStart.length() + 20;
                    AllEnd -= 10;//定義文章開始結束位置
                    PrintWriter pw = new PrintWriter(new File(savePath + bookName.get(url)+"第"+depth +"章"+ ".txt"));//建立存放資料的檔案，檔名包含當前時間，防止重複
                    String sin = "";
                    while ((Sin = stringBuilder.substring(start, end)) != null) {
                        pw.println(Sin);//寫入檔案
                        start = end + tem.length();
                        end = stringBuilder.indexOf(tem, start + 1);
                        if (end == -1 || end >= AllEnd) {
                            break;
                        }
                    }

                    //這裡的正則表示式針對的是https://www.qidian.com/ 起點中文網

                    pw.close();
                    br.close();
                    overUrl.add(url);
                    System.out.println("《"+bookName.get(url)+"》已爬取，共爬取所有小說章節數量" + overUrl.size() + "剩餘爬取章節數量：" + waitUrl.size());
                }catch (Exception e){
                    e.printStackTrace();
                }
            }
        }
    }
    public static synchronized String getUrl(){//取得最新Url
        if(!waitUrl.isEmpty()){
            String tempUrl = waitUrl.get(0);
            waitUrl.remove(0);
            return tempUrl;
        }else return null;
    }
    public static synchronized void addUrl(String Url,int Depth,String bName){//新增Url
        if(overUrl.contains(Url) == false){
            waitUrl.add(Url);
            UrlDepth.put(Url,Depth);
            bookName.put(Url,bName);
            System.out.println("《"+bookName.get(Url)+"》的章節"+Depth+"已經新增到待爬取佇列，目前待爬取佇列有"+waitUrl.size()+"個任務。");
        }else{
            System.out.println("《"+bookName.get(Url)+"》的章節"+Depth+"已經爬取過了，不再爬取。");
        }
    }
}

CrawlTheWeb.java

import java.sql.Time;
import java.text.SimpleDateFormat;
import java.util.ArrayList;
import java.util.Date;
import java.util.concurrent.Executor;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;

public class CrawlTheWeb extends Thread{
    public static Object lock = new Object();//執行緒鎖 用於使執行緒進入睡眠，或隨機喚醒一個執行緒
    public void run(){
        while(true){
            if(Thread.currentThread().isInterrupted()){
                System.out.println(Thread.currentThread().getName()+"完成了任務。");
                break;
            }
            if(AllUrl.waitUrl.isEmpty() == false){
                String nextUrl = AllUrl.waitUrl.get(0);
                AllUrl.waitUrl.remove(0);
                AllUrl.workUrl(nextUrl,AllUrl.UrlDepth.get(nextUrl));
                System.out.println(this.getName()+"開始爬取《"+AllUrl.bookName.get(nextUrl)+"》，章節數： "+AllUrl.UrlDepth.get(nextUrl));
            }else{
                synchronized (lock){
                    try {
                        System.out.println("待爬取列表為空，"+this.getName()+"進入等待狀態。");
                        lock.wait();
                    }catch (Exception e){
                        e.printStackTrace();
                    }
                }
            }
        }
    }

    public static void main(String[] args) {
        SimpleDateFormat formatter= new SimpleDateFormat("yyyy-MM-dd 'at' HH:mm:ss z");
        Date date = new Date(System.currentTimeMillis());
        System.out.println(formatter.format(date));
        String strUrl = "https://read.qidian.com/chapter/D-1F0Iq1JGPOVUeyz9PqUQ2/DIfEaAmW-9X6ItTi_ILQ7A2/";//爬取的網頁
        AllUrl.addUrl(strUrl,1,"模擬器：開局天牢死囚");
        strUrl = "https://read.qidian.com/chapter/W08HMrSPUHj7X4qr8VpWrA2/8W_pmmniqFvM5j8_3RRvhw2/";//爬取的網頁
        AllUrl.addUrl(strUrl,1,"我的屬性修行人生");
        strUrl = "https://read.qidian.com/chapter/q2B9dFLoeqU3v1oFI-DX8Q2/dsXQ94IHlUZp4rPq4Fd4KQ2/";//爬取的網頁
        AllUrl.addUrl(strUrl,1,"這個武聖超有素質");
        for(int i=0;i<AllUrl.maxThread;i++){
            new CrawlTheWeb().start();
        }

    }
}

大多數人都推薦實現 Runnable ，但是目前我還用不著，暫時先繼承稍微熟悉一點的Thread。

Java 寫的簡單網路爬蟲

覺得好玩，昨天就研究了一下java爬蟲。在網上搜索了一些樣例研究了一下。仿造寫了一個簡單的爬蟲，可以自動爬取某本小說的章節（需要自定義正則表示式），利用多執行緒+鎖可以爬的更快，也可以同時爬多本書。

java實現簡單網路象棋遊戲

本文例項為大家分享了java實現網路象棋遊戲的具體程式碼，供大家參考，具體內容如下

基於C#的簡單網路爬蟲例項

以下程式碼用來爬取近30年來地震資料，實際執行時間為4.5小時（博主電腦配置較低）

java程式設計實現簡單的網路爬蟲示例過程

本專案中需要用到兩個第三方jar包，分別為 oup 和 commons-io。 jsoup的作用是為了解析， commons-io 是為了把資料儲存到本地。

【Python爬蟲】一個簡單的網路爬蟲

網頁結構的相似性爬蟲的目的，是從網站中自動化的批量提取資料。首先嚐試完成以下操作:

用Java寫一個簡單的Bitmap

/** * Bitmap用於標識[low, high]區間內的數的佔用情況， * 進一步可以用來去重，用來排序等

java實現一個簡單的爬蟲小程式

前言前些天無意間在百度搜索了一下以前寫過的部落格我啥時候在這麼多不知名的網站上發表部落格了？？？點進去一看，內容一模一樣，作者卻不是我...

寫一個簡單node爬蟲,將苑一峰 es6 教程網爬取轉為pdf 檔案

準備工作，很簡單，只需要安裝好node 環境就可以了，另外安裝一個谷歌開發的一個爬蟲框架，puppeteer,這個模組很強大，可以模擬瀏覽器做很多事情，大家可以去官網去學習一下，不多說，直接上程式碼

Java 網路爬蟲基礎知識入門解析

前言說起網路爬蟲，大家想起的估計都是 Python ，誠然爬蟲已經是 Python 的代名詞之一，相比 Java 來說就要遜色不少。有不少人都不知道 Java 可以做網路爬蟲，其實 Java 也能做網路爬蟲而且還能做的非常好，在開源

Java 網路爬蟲新手入門詳解

這是 Java 網路爬蟲系列文章的第一篇，如果你還不知道 Java 網路爬蟲系列文章，請參看Java 網路爬蟲基礎知識入門解析。第一篇是關於 Java 網路爬蟲入門內容，在該篇中我們以採集虎撲列表新聞的新聞標題和詳情頁為例，

爬蟲其實很簡單！——網路爬蟲快速實現(一)

今天我來帶領大家一起學習編寫一個網路爬蟲！其實爬蟲很簡單，沒有想象中那麼難，也許所有學問都是這樣，恐懼源自於無知。廢話不多說，現在開始我們的爬蟲之旅吧。

package hu;import java.io.IOException;import java.net.MalformedURLException;import java.net.URL;import java.sql.DriverManager;import java.sql.SQLException;import java.text.SimpleDateFormat;import java