爬蟲記錄（4）——多執行緒爬取圖片並下載

阿新 • • 發佈：2019-02-01

還是繼續前幾篇文章的程式碼。

當我們需要爬取的圖片量級比較大的時候，就需要多執行緒爬取下載了。這裡我們用到forkjoin pool來處理併發。

1、DownloadTask下載任務類

package com.dyw.crawler.util;

import java.io.File;
import java.io.InputStream;
import java.util.List;
import java.util.concurrent.RecursiveAction;

/**
 * forkJoin pool 並行處理下載圖片
 * Created by dyw on 2017/9/7.
 */ 

public class DownloadTask extends RecursiveAction {
    //每個任務總數
    private static final int THRESHOLD = 8;
    //傳入的所有的url的列表
    private List<String> urls;
    //開始座標
    private int start;
    //結束座標
    private int end;
    //儲存路徑
    private String path;

    /**
     * @param urls  url集合
     * @param 
 start 開始座標
     * @param end   結束座標
     * @param path  儲存路徑
     */
    public DownloadTask(List<String> urls, int start, int end, String path) {
        this.urls = urls;
        this.start = start;
        this.end = end;
        this.path = path;
    }

    @Override
    protected void compute 
() {
        if (end - start < THRESHOLD) {
            for (int i = start; i < end; i++) {
                String url = urls.get(i);
                String[] split = url.split("/");
                String imgName = split[split.length - 1];
                try {
                    //檔案儲存
                    File file = new File(path + "/" + imgName);
                    InputStream inputStream = CrawlerUtils.downLoadFromUrl(url);
                    IOUtils.saveFile(inputStream, file);
                    System.out.println("success:" + url);
                } catch (Exception e) {
                    System.out.println("fail:" + url);
                }
            }
        } else {
            // 如果當end與start之間的差大於THRESHOLD時,將大任務分解成兩個小任務。
            int middle = (start + end) / 2;
            DownloadTask left = new DownloadTask(urls, start, middle, path);
            DownloadTask right = new DownloadTask(urls, middle, end, path);
            // 並行執行兩個“小任務”
            left.fork();
            right.fork();
        }
    }
}

2、main主方法

package com.dyw.crawler.project;

import com.dyw.crawler.util.CrawlerUtils;
import com.dyw.crawler.util.DownloadTask;
import com.dyw.crawler.util.IOUtils;
import com.dyw.crawler.util.RegularUtils;

import java.io.File;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.List;
import java.util.concurrent.ForkJoinPool;
import java.util.concurrent.TimeUnit;

/**
 * 多執行緒下載圖片
 * Created by dyw on 2017/9/7.
 */
public class Project3 {

    public static void main(String[] args) {
        ForkJoinPool forkJoinPool = new ForkJoinPool();
        String path = "C:\\Users\\dyw\\Desktop\\crawler\\photo";
        String path1 = "C:\\Users\\dyw\\Desktop\\crawler\\photo1";
        String url = "http://www.tuigirlba.cc/page/show/";
        List<String> list = new ArrayList<>();
        try {
            for (int i = 330; i < 380; i++) {
                String htmlContent = CrawlerUtils.get(url + i);
                List<String> imgUrls = RegularUtils.getIMGUrl(htmlContent);
                list.addAll(imgUrls);
            }
            long l = System.currentTimeMillis();
            forkJoinPool.execute(new DownloadTask(list, 0, list.size(), path));
            forkJoinPool.shutdown();
            //等待 forkJoinPool 20秒
            forkJoinPool.awaitTermination(20, TimeUnit.SECONDS);
            long l1 = System.currentTimeMillis() - l;
            long l2 = System.currentTimeMillis();
            //for迴圈下載
            list.forEach(imgUrl -> {
                String[] split = imgUrl.split("/");
                String imgName = split[split.length - 1];
                try {
                    File file1 = new File(path1 + "/" + imgName);
                    InputStream inputStream = CrawlerUtils.downLoadFromUrl(imgUrl);
                    IOUtils.saveFile(inputStream, file1);
                    System.out.println("success:" + imgUrl);
                } catch (Exception e) {
                    System.out.println("fail:" + imgUrl);
                }
            });
            long l3 = System.currentTimeMillis() - l2;
            System.out.println("forkjoin處理時間："+l1);
            System.out.println("沒有並行處理時間："+l3);
        } catch (Exception e) {
            throw new RuntimeException("獲取內容失敗!", e);
        }
    }
}

3、執行結果

從下面2個圖片中可以看到，比同步的快很多！

這裡寫圖片描述

如果有什麼程式碼修改的建議，請給我留言唄！ ☺☺☺

爬蟲記錄（4）——多執行緒爬取圖片並下載

還是繼續前幾篇文章的程式碼。當我們需要爬取的圖片量級比較大的時候，就需要多執行緒爬取下載了。這裡我們用到forkjoin pool來處理併發。 1、DownloadTask下載任務類 package com.dyw.crawler.util;

多執行緒爬取圖片（生產者-消費者模式）

通過生產者-消費者模式實現多執行緒爬取圖片：　　1、生產者通過不斷爬取網頁中圖片的url存入圖片佇列中　　2、消費者通過圖片佇列中的url爬取圖片並下載到本地　　3、多執行緒的方式，爬取與下載同時進行，直到子執行緒結束，輸出爬取時間 1 #多執行緒下載圖片 2 #生產者

多執行緒爬取圖片網(分類儲存到資料夾)

import requests import re from bs4 import BeautifulSoup import os from lxml import etree from multiprocessing import Process,Pool #

JAVA基礎複習（七）多執行緒和網路

1、建立執行緒和任務，如： //任務類必須實現Runnable介面 public class TaskClass implements Runnable{ ... public TaskClass(...){ ... } //想要在該執行緒執行的

Boost（六）——多執行緒

結合Boost官網多執行緒的難點在於同步執行，需要“鎖”控制所有權。鎖有分：互斥鎖，條件變數... 互斥鎖：boost::mutex 獲取和釋放成對存在，也可以用boost::lock_guard<boost::mutex> lock(mutex); boost::l

C#：執行緒（4）：執行緒等待

執行緒等待，或者說叫等待執行緒。其語句是執行緒名.Join() 。按照我的理解，這個語句其實是告訴系統程式，這個執行緒很重要，你必須使用全部的計算資源供他計算，等他計算結束了之後再回到這個位置。舉例來說，下面這個程式就用了執行緒等

JAVA進階（06）多執行緒

一、三個概念 1、程式程式(Program)是一個靜態的概念，一般對應於作業系統中的一個可執行檔案 2、程序（1）執行中的程式叫做程序(Process)，是一個動態的概念（2）特點：程序是程式的一次動態執行過程，佔用特定的地址空間每個程序由3

Python高階程式設計（四）多執行緒

Python 多執行緒多執行緒類似於同時執行多個不同程式，多執行緒執行有如下優點：使用執行緒可以把佔據長時間的程式中的任務放到後臺去處理。使用者介面可以更加吸引人，這樣比如使用者點選了一個按鈕去觸發某些事件的處理，可以彈出一個進度條來顯示處理的進度程式的執

多執行緒基礎（三）-多執行緒併發安全問題

多執行緒基礎（三）-多執行緒併發安全問題當多個執行緒併發操作同一資源時，由於執行緒切換實際不可控會導致操作邏輯執行順序出現混亂，嚴重時會導致系統癱瘓。例如下面的程式碼 public class SyncDemo { public static void main(Strin

Java併發程式設計（二）多執行緒四種實現方式

Java實現多執行緒的方式 Java實現多執行緒的方式有4種：繼承Thread方法、實現Runnable介面、實現Callable介面並通過FutureTask建立執行緒、使用ExecutorService。其中，前兩種執行緒執行結果沒有返回值，後兩種是有返回值的。 1、繼承Th

（一）多執行緒說學逗唱：關於執行緒那不得不說的二三事

（二）多執行緒說學逗唱：新手村偶遇Thread類為什麼一上來就要寫這個這個是啥，那個那個是啥，直接進去主題不好嗎？以前我也是這麼想的，可是後來呀…總之，一個不刨根問底的程式設計師不是好程式設計師，要深究一個知識點還就得知道他是從哪裡來，到哪裡去，既然來到這個事件

（三）多執行緒說學逗唱：村口的老R頭是個掃地僧（Runnable）

（一）多執行緒說學逗唱：關於執行緒那不得不說的二三事（二）多執行緒說學逗唱：新手村偶遇Thread類上一篇我們講到Thread這個類以及簡單地說了下執行緒執行的隨機性，相信大家對執行緒的使用有了不小的瞭解… 繼承Thread介面是實現多執行緒

（四）多執行緒說學逗唱：執行緒險惡，變數和執行緒安全不得不防

（一）多執行緒說學逗唱：關於執行緒那不得不說的二三事（二）多執行緒說學逗唱：新手村偶遇Thread類（三）多執行緒說學逗唱：村口的老R頭是個掃地僧（Runnable）出了新手村，以後的路可就不那麼好走了，到底現在也是個江湖人，都必須經歷點困難挫折，要不以後拿什

Java Socket應用（三）多執行緒實現多客戶端的通訊

伺服器執行緒處理類ServerThread.java ： package com.yijia; import java.io.*; import java.net.Socket; /** * 建立時間：2018/10/4 14:59 * 作者： * 郵箱：[ema

PyQt5進階（二）——多執行緒：QTimer

應用程式開發中多執行緒的必要性：一般情況下，應用程式都是單執行緒執行的，但是對GUI程式來說，單執行緒有時候滿足不了要求，但是對於一些特殊情況：比如一個耗時較長的操作，執行過程會有卡頓讓使用者以為程式出錯而把程式關閉或是系統本身認為程式執行出錯而自動關閉程式。這個時候就

PyQt5進階（二）——多執行緒：QThread & 事件處理

接上篇… 2. QThread 要使用QThread開始一個執行緒，可以建立它的一個子類，然後覆蓋其QThread.run()函式 class Thread(QThread): def __init__(self): super().__init__()

MFC筆記（四）——多執行緒程式設計1:模組、程序、執行緒間的基本概念

一、模組、程序、執行緒 1.1 模組一段可執行的程式（包括EXE和DLL），其程式程式碼、資料、資源被載入到記憶體中，由系統建立一個數據結構來管理它。這段程式就是一個模組。這裡所說

python高階（二）——多工（一）執行緒（2）多執行緒UDP聊天器

import socket import threading def recv_msg(udp_socket): # 接收資料 while True: recv_data = udp_socket.recvfrom(1024) print(recv

多執行緒（3）-多執行緒訪問共享物件和資料的方式

在多執行緒（2）-ThreadLocal，我們討論了執行緒範圍內的資料共享，本篇文章我們討論執行緒之間即多執行緒訪問共享物件和資料的方式一：Java5之前給共享資料加上鎖synchronized，上程式碼 public class MultiThreadShareDat

非同步程式設計學習之路（三）-多執行緒之間的協作與通訊

本文是非同步程式設計學習之路（三）-多執行緒之間的協作與通訊，若要關注前文，請點選傳送門：非同步程式設計學習之路（二）-通過Synchronize實現執行緒安全的多執行緒通過前文，我們學習到如何實現同步的多執行緒，但是在很多情況下，僅僅同步是不夠的，還需要執行緒與執行緒協作(通訊)，生產

爬蟲記錄（4）——多執行緒爬取圖片並下載

相關推薦