Python爬蟲之queue線程安全實戰

阿新 • • 發佈：2018-10-25

xpath nbsp lose list 異步 thread 取圖 producer 是否為空

1.普通下載

import requests
import os
import re
from lxml import etree
from urllib import request


def get_detail(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3554.0 Safari/537.36"
    }
    rep = requests.get(url, headers=headers)
    html  
= etree.HTML(rep.text)
    imgs = html.xpath(‘//div[@class="page-content text-center"]//img[@class!="gif"]‘)
    for img in imgs:
        img_url = img.get("data-original")
        # 獲取圖片名稱
        img_name = img.get("alt")
        # 過濾特殊字符
        img_name = re.sub(r‘[\?？\.，。！!]‘, "", img_name)
         
# 獲取圖片後綴名
        suffix = os.path.splitext(img_url)[1].split("!")[0]
        filename = img_name + suffix
        # 開始下載到本地
        request.urlretrieve(img_url, "imgs/" + filename)


def main():
    for i in range(1, 101):
        url = "http://www.doutula.com/photo/list/?page={}".format(i)
        get_detail(url)


 
if __name__ == ‘__main__‘:
    main()

View Code

2.開啟queue多線程安全隊列異步下載

import requests
import os
import re
from lxml import etree
from urllib import request
from queue import Queue
import threading


class Producer(threading.Thread):
    """批量下載"""
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3554.0 Safari/537.36"
    }

    def __init__(self, page_queue, img_queue, *args, **kwargs):
        # 找到Producer的父類Thread，然後把Producer的對象self轉換為Thread的對象，調用父類(Thread)的__init__方法，實例化對象
        super(Producer, self).__init__(*args, **kwargs)
        self.page_queue = page_queue
        self.img_queue = img_queue

    def run(self):
        while True:
            # 隊列空為True，則break掉
            if self.page_queue.empty():
                break
            url = self.page_queue.get()
            self.get_detail(url)

    def get_detail(self, url):
        rep = requests.get(url, headers=self.headers)
        text = rep.text
        html = etree.HTML(text)
        imgs = html.xpath(‘//div[@class="page-content text-center"]//img[@class!="gif"]‘)
        for img in imgs:
            img_url = img.get("data-original")
            # 獲取圖片名稱
            img_name = img.get("alt")
            # 過濾特殊字符
            img_name = re.sub(r‘[\?？\.，。！!\*]‘, "", img_name)
            # 獲取圖片後綴名
            suffix = os.path.splitext(img_url)[1].split("!")[0]
            filename = img_name + suffix
            # 以元組形式推送到隊列中
            self.img_queue.put((img_url, filename))


class Consumer(threading.Thread):
    """批量存儲"""
    def __init__(self, page_queue, img_queue, *args, **kwargs):
        # 繼承同一個父類，擁有一樣的方法和變量
        super(Consumer, self).__init__(*args, **kwargs)
        self.page_queue = page_queue
        self.img_queue = img_queue

    def run(self):
        while True:
            # 因為是異步下載，所以需要兩個都判斷是否為空
            if self.img_queue.empty() and self.page_queue.empty():
                break
            # 獲取隊列中元組內數據
            img_url, filename = self.img_queue.get()
            request.urlretrieve(img_url, "imgs/" + filename)
            print(filename+"下載完成！")


def main():
    page_queue = Queue(100)       # 設置最大線程數量
    img_queue = Queue(1000)
    for i in range(1, 101):
        url = "http://www.doutula.com/photo/list/?page={}".format(i)
        page_queue.put(url)
    for i in range(5):
        # 開啟五個下載線程
        t = Producer(page_queue, img_queue)
        t.start()

    for x in range(5):
        # 開啟五個儲存線程
        t = Consumer(page_queue, img_queue)
        t.start()


if __name__ == ‘__main__‘:
    main()

View Code

Python爬蟲之queue線程安全實戰

xpath nbsp lose list 異步 thread 取圖 producer 是否為空 1.普通下載 import requests import os import re from lxml import etree from urllib import re

Python爬蟲之多線程下載豆瓣Top250電影圖片

process current ocs code roc 輸出 wait div 允許爬蟲項目介紹 ??本次爬蟲項目將爬取豆瓣Top250電影的圖片，其網址為：https://movie.douban.com/top250，具體頁面如下圖所示： ??本次爬蟲項目將分別

Python爬蟲之多進程淺談

args inf 創建進程平臺 fifo 概念實體異步執行 sin 一、進程及狀態　　1、進程　　　　程序，是指靜態，而進程則是動態的概念，首先把程序運行起來，代碼+涉及的資源=進程，它是操作系統分配資源的基本單位，多進程可以實現多任務　　2、進程的狀態　　　

爬蟲之多線程

3.1 保存到文件執行 timeout 如何使用 queue som true 方法 1. 引入我們平常寫的爬蟲都是單個線程的？這怎麽夠？一旦一個地方卡到不動了，那不就永遠等待下去了？為此我們可以使用多線程或者多進程來處理。 2. 如何使用爬蟲使用多

Python爬蟲(6) 多線程

創建線程 wow query 爬取 exit quest 人工智 += txt import threading as td;import queue as qu;import re;import urllib.request as ur;import urllib.err

python爬蟲之線程池和進程池

偏見通信內存空間正常 io操作爬取網站總結性能一、需求　　最近準備爬取某電商網站的數據，先不考慮代理、分布式，先說效率問題（當然你要是請求的太快就會被封掉，親測，400個請求過去，服務器直接拒絕連接，心碎），步入正題。一般情況下小白的我們第一個想到的是fo

java線程安全問題之靜態變量、實例變量、局部變量

通過技術安全實踐共享 pub net current 聲明 Java多線程編程中，存在很多線程安全問題，至於什麽是線程安全呢，給出一個通俗易懂的概念還是蠻難的，如同《java並發編程實踐》中所說：寫道給線程安全下定義比較困難。存在很多種定義，如：“一個類在可以被

那些年讀過的書《Java並發編程實戰》一、構建線程安全類和並發應用程序的基礎

修改 strong pad 應用程序什麽定義表現額外構建 1、線程安全的本質和線程安全的定義（1）線程安全的本質並發環境中，當多個線程同時操作對象狀態時，如果沒有統一的狀態訪問同步或者協同機制，不同的線程調度方式和不同的線程執行次序就會產生不同的不正確的結果

queue非線程安全及多線程解決的方法

lee stl 問題 art 可能一個場景 div 解決 stl的queue是非線程安全的比方以下的應用場景：子線程對queue隊列做push操作，同一時候主線程對queue運行pop操作，則可能會發生異常。解決的方法：方案1：自己寫一個循環隊列，則不存在

python並發編程之多線程

開始 ted 相同進入 count init 任務結束 oba 開啟線程的兩種方式： from threading import Thread import time def sayhi(name): time.sleep(2) print(‘%s

python並發之多線程

action 互斥 nec data- setname elf 全局 for encoding 一開啟線程的兩種方式 from threading import Thread import time def haha(name): time.sleep(2)

python-day36--並發編程之多線程

其他過程連接 sleep print font 並發編程 name als 十三、死鎖、遞歸鎖　　1.所謂死鎖：是指兩個或兩個以上的進程或線程在執行過程中，因爭奪資源而造成的一種互相等待的現象，若無外力作用，它們都將無法推進下去。此時稱系統處於死鎖狀態或系統產生了死

python並發編程之多線程2------------死鎖與遞歸鎖，信號量等

線程的狀態 == 利用 def 就會 req f11 例如事件一、死鎖現象與遞歸鎖進程也是有死鎖的所謂死鎖：是指兩個或兩個以上的進程或線程在執行過程中，因爭奪資源而造成的一種互相等待的現象，若無外力作用，它們都將無法推進下去。此時稱系統處於死鎖狀態或系統產生了死

python學習_day36_並發編程之多線程1

之間單獨程序多條 pid ron 獨立特性銷毀一、多線程相關概念 1.線程的定義　　在傳統操作系統中，每個進程有一個地址空間，而且默認就有一個控制線程，線程顧名思義，就是一條流水線工作的過程，一條流水線必須屬於一個車間，一個車間的工作過程是一個進程。車間負責把

Java 學習筆記之線程安全

div ora mage 線程安全 cnblogs cor exception rup ron 線程安全: 線程安全的方法一定是排隊運行的。 public class SyncObject { synchronized public void met

python筆記11-多線程之Condition（條件變量）

條件生成 lee 就是 ase 傳遞數量 cer 比較前言當小夥伴a在往火鍋裏面添加魚丸，這個就是生產者行為；另外一個小夥伴b在吃掉魚丸就是消費者行為。當火鍋裏面魚丸達到一定數量加滿後b才能吃，這就是一種條件判斷了。這就是本篇要講的Condition（條件變量）

python並發編程之多線程編程

python線程編程一、threading模塊介紹 multiprocess模塊的完全模仿了threading模塊的接口，二者在使用層面，有很大的相似性，因而不再詳細介紹二、開啟線程的兩種方式方式一： from threading import Thread import time

python筆記7-多線程threading之函數式

開始 tran 個數字 get meta 兩種吃火鍋 keyword 多線程前言 1.python環境2.72.threading模塊系統自帶單線程 1.平常寫的代碼都是按順序挨個執行的，就好比吃火鍋和哼小曲這兩個行為事件，定義成兩個函數，執行的時候，是先吃火鍋再哼小

python筆記10-多線程之線程同步（鎖lock）

pre 創建函數必須 col threading code png sta 前言關於吃火鍋的場景，小夥伴並不陌生，吃火鍋的時候a同學往鍋裏下魚丸，b同學同時去吃掉魚丸，有可能會導致吃到生的魚丸。為了避免這種情況，在下魚丸的過程中，先鎖定操作，讓吃火鍋的小夥伴停一會，等

.NET面試題系列（五）數據結構(Array、List、Queue、Stack)及線程安全問題

種類型增刪叠代器鎖機制時間 AS aop 不同 obj 集合 1. Array(數組)：分配在連續內存中,不能隨意擴展，數組中數值類型必須是一致的。數組的聲明有兩種形式：直接定義長度，然後賦值；直接賦值。　　缺點：插入數據慢。　　優點：性

Python爬蟲之queue線程安全實戰

1.普通下載

2.開啟queue多線程安全隊列異步下載

相關推薦