多線程爬蟲案例

阿新 • • 發佈：2018-07-11

阻塞 dna out web 引用意圖一個數 adding tro

多線程糗事百科案例

案例要求參考上一個糗事百科單進程案例

Queue（隊列對象）

Queue是python中的標準庫，可以直接import Queue引用;隊列是線程間最常用的交換數據的形式

python下多線程的思考

對於資源，加鎖是個重要的環節。因為python原生的list,dict等，都是not thread safe的。而Queue，是線程安全的，因此在滿足使用條件下，建議使用隊列

初始化： class Queue.Queue(maxsize) FIFO 先進先出
包中的常用方法:
- Queue.qsize() 返回隊列的大小
- Queue.empty() 如果隊列為空，返回True,反之False
- Queue.full() 如果隊列滿了，返回True,反之False
- Queue.full 與 maxsize 大小對應
- Queue.get([block[, timeout]])獲取隊列，timeout等待時間
創建一個“隊列”對象
- import Queue
- myqueue = Queue.Queue(maxsize = 10)
將一個值放入隊列中
- myqueue.put(10)
將一個值從隊列中取出
- myqueue.get()

多線程示意圖

技術分享圖片

import threading
from queue import Queue
from lxml import etree
import requests
import json
import time


class ThreadCrawl(threading.Thread):
    def __init__(self, threadName, pageQueue, dataQueue):
        # 調用父類的初始化方法
        # threading.Thread.__init__(self)
        super(ThreadCrawl, self).__init__()
        # 線程的名字
        self.threadName = threadName
        # 頁碼隊列
        self.pageQueue = pageQueue
        # 數據隊列
        self.dataQueue = dataQueue
        # 請求報頭
        self.headers = {
            "Uaer-Agent": "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50"
        }

    def run(self):
        print(‘啟動:{}‘.format(self.threadName))
        while not CRAWL_EXIT:
            try:
                # 取出隊列中的一個數字, 先進先出
                # 可選參數block, 默認值為True, 兩種用法
                # 1. 如果隊列為空, block為True的話, 不會結束, 就會進入阻塞狀態, 知道隊列有新的數據
                # 2. 如果隊列為空, block為False的話, 就會彈出一個Queue.empty()異常
                page = self.pageQueue.get(False)
                url = ‘http://www.qiushibaike.com/8hr/page/{}/‘.format(page)
                content = requests.get(url, headers=self.headers).text
                # content = content.decode(‘utf-8‘)
                # print(content)
                time.sleep(1)
                self.dataQueue.put(content)
            except:
                pass
        print(‘結束:{}‘.format(self.threadName))


class ThreadParse(threading.Thread):
    def __init__(self, threadName, dataQueue, filename, lock):
        super(ThreadParse, self).__init__()
        # 線程的名字
        self.threadName = threadName
        # 數據隊列
        self.dataQueue = dataQueue
        # 保存解析後數據的文件名
        self.filename = filename
        # 鎖
        self.lock = lock

    def run(self):
        print(‘啟動:{}‘.format(self.threadName))
        while not PARSE_EXIT:
            try:
                html = self.dataQueue.get(False)
                self.parse(html)
            except:
                pass
        print(‘結束:{}‘.format(self.threadName))

    def parse(self, html):
        # 解析為HTML DOM
        html = etree.HTML(html)
        node_list = html.xpath(‘//div[contains(@class, "article block untagged mb15")]‘)
        for node in node_list:
            # print(node)
            # xpath返回的列表，這個列表就這一個參數，用索引方式取出來，用戶名
            # .//h2  用戶名
            username = node.xpath(‘.//h2‘)[0].text.strip()
            # print(‘username==={}‘.format(username))
            # .//div[@class="thumb"]//@src  圖片連接
            image = node.xpath(‘.//div[@class="thumb"]//@src‘)
            # print(‘image==={}‘.format(image))
            # .//div[@class="content"]/span    取出標簽下的內容,段子內容
            content = node.xpath(‘.//div[@class="content"]/span‘)[0].text.strip()
            # print(‘content==={}‘.format(content))
            # .//i[@class="number"][0] 點贊  取出標簽裏包含的內容，點贊
            zan = node.xpath(‘.//i[@class="number"]‘)[0].text
            # print(‘zan==={}‘.format(zan))
            # .//i[@class="number"][i] 評論
            comments = node.xpath(‘.//i[@class="number"]‘)[1].text
            # print(‘comments==={}‘.format(comments))
            items = {
                "username" : username,
                "image" : image,
                "content" : content,
                "zan" : zan,
                "comments" : comments
            }

            # with 後面有兩個必須執行的操作：__enter__ 和 _exit__
            # 不管裏面的操作結果如何，都會執行打開、關閉
            # 打開鎖、處理內容、釋放鎖
            # print("正在寫入內容!!!")
            with self.lock:
                # print("正在寫入內容!!!")
                # # 寫入存儲的解析後的數據
                # json_data = json.dumps(items, ensure_ascii=False)
                # print(‘jsondata==={}‘.format(json_data))
                # self.filename.write(json_data.encode("utf-8") + "\n")
                self.filename.write(str(json.dumps(items, ensure_ascii = False))+‘\n‘)
                print("寫入完成!!!")


# 采集爬蟲退出信號
CRAWL_EXIT = False
# 解析爬蟲退出信號
PARSE_EXIT = False


def main():
    # 頁碼的隊列, 表示10個頁面
    pageQueue = Queue(10)
    # 放入1~10個數字, 先進先出
    for i in range(1, 11):
        pageQueue.put(i)

    # 采集結果(每頁的html源碼)的數據隊列, 參數為空表示不限制
    dataQueue = Queue()

    filename = open(‘duanzi.json‘, ‘a‘, encoding=‘utf-8‘)
    print("打開文件!!!")

    # 創建鎖
    lock = threading.Lock()

    # 三個采集線程的名字
    crawlList = ["采集線程1號", "采集線程2號", "采集線程3號"]

    # 存儲三個采集線程的列表集合
    threadcrawl = []

    for threadName in crawlList:
        thread = ThreadCrawl(threadName, pageQueue, dataQueue)
        thread.start()
        threadcrawl.append(thread)
        time.sleep(1)

    # 三個解析線程的名字
    parseList = ["解析線程1號", "解析線程2號", "解析線程3號"]

    # 存儲三個解析線程
    threadparse = []

    for threadName in parseList:
        thread = ThreadParse(threadName, dataQueue, filename, lock)
        thread.start()
        threadparse.append(thread)

    # 等待pageQueue隊列為空, 等待之前的操作執行完畢
    while not pageQueue.empty():
        pass

    # 如果pageQueue為空, 采集線程退出循環
    global CRAWL_EXIT
    CRAWL_EXIT = True

    print(‘pageQueue隊列為空‘)

    for thread in threadcrawl:
        thread.join()
        print("1")

    while not dataQueue.empty():
        pass

    global PARSE_EXIT
    PARSE_EXIT = True

    for thread in threadparse:
        thread.join()
        print("2")

    with lock:
        print("關閉文件!!!")
        # 關閉文件
        filename.close()
    print("謝謝使用")


if __name__ == ‘__main__‘:
    main()

多線程爬蟲案例

阻塞 dna out web 引用意圖一個數 adding tro 多線程糗事百科案例案例要求參考上一個糗事百科單進程案例 Queue（隊列對象） Queue是python中的標準庫，可以直接import Queue引用;隊列是線程間最常用的交換數據的形式

php多線程爬蟲類

php 多線程爬蟲類代碼： <?php /** * @desc：多線程爬蟲類 * @author [Lee] <[<[email protected]>]> * @property * 1、calltrigger 觸發爬蟲程序的回調函數 * 2、calltodo

java基礎-多線程應用案例展示

多線程爬蟲爬取詳情頁HTML

切片 html rt thread set enc import req xpath 循環註意：如果想爬取詳情頁的信息請按須添加方法 import requests import os import re import threading from lxml

自定義爬蟲架構之多線程爬蟲與異步爬蟲

重試 all 斷言 python3 pla info task webkit header async/await關鍵字是出現在python3.4以後。網上已經有很多文章對async/await這兩個關鍵字都有講解，包括如何由python2的yield from發展到as

Python爬蟲(十八)_多線程糗事百科案例

.json afa 安全 rip down 退出交互 encode tar 多線程糗事百科案例案例要求參考上一個糗事百科單進程案例:http://www.cnblogs.com/miqi1992/p/8081929.html Queue(隊列對象) Queue是pyth

python 多線程糗事百科案例

wow64 案例 sts ascii starting 頁面 don 示意圖 utf-8 案例要求參考上一個糗事百科單進程案例 Queue（隊列對象） Queue是python中的標準庫，可以直接import Queue引用;隊列是線程間最常用的交換數據的形式 python

多線程面試題系列（16）：多線程十大經典案例之一雙線程讀寫隊列數據

als single 間隔 eas 講解 art ces 依賴 ini 前十五篇中介紹多線程的相關概念，多線程同步互斥問題（第四篇）及解決多線程同步互斥的常用方法——關鍵段、事件、互斥量、信號量、讀寫鎖。為了讓大家更加熟練運用多線程，將會有十篇文章來講解十個多線程使用案例，

python采用多進程/多線程/協程寫爬蟲以及性能對比，牛逼的分分鐘就將一個網站爬下來!

分配返回 afa 一個同方 except erer 簡單 direct 首先我們來了解下python中的進程，線程以及協程！從計算機硬件角度：計算機的核心是CPU，承擔了所有的計算任務。一個CPU，在一個時間切片裏只能運行一個程序。從操作系統的角度：進程

多線程概念、案例！

時間片多次靜態方法 xtend read 區別方法 cat sel 1：線程的概念進程(任務)：一個正在運行的程序進程的調度:CPU來決定什麽時候該運行哪個進程（時間片輪流法） 1.2 線程和進程的關系 a:一個進程可以創建多個線程 b:線程必須

爬蟲中基本的多線程

繼承 pub 所有子類 tin .sh for 導致語言因為Java語言中不允許繼承多個類，所以一個類一旦繼承了 Thread類，就不能再繼承其他類了。為了避免所有線程都必須是Thread的子類，需要獨立運行的類也可以繼承一個系統已經定義好的叫作Runnable的接口

Selenium_python自動化跨瀏覽器執行測試（簡單多線程案例）

思路 IT port 情況 art 百度一吸引 find 導致發生背景：　　　　跨瀏覽器測試是功能測試的一個分支，用以驗證web應用在不同瀏覽器上的正常工作，通常情況下，我們都期望web類應用能夠被我們的用戶在任何瀏覽器上使用，例如有的人喜歡IE瀏覽器上使用，有的人喜

多線程糗事百科案例

一個 tag except 入隊 run cep thread ont global Queue（隊列對象） Queue是python中的標準庫，可以直接import Queue引用;隊列是線程間最常用的交換數據的形式 python下多線程的思考對於資源，加鎖是個重要的環

Python爬蟲之多線程下載豆瓣Top250電影圖片

process current ocs code roc 輸出 wait div 允許爬蟲項目介紹 ??本次爬蟲項目將爬取豆瓣Top250電影的圖片，其網址為：https://movie.douban.com/top250，具體頁面如下圖所示： ??本次爬蟲項目將分別

爬蟲_鬥圖啦(隊列，多線程)

produce rom return range while rod 爬蟲 put 2.0 1 import threading 2 import requests 3 from lxml import etree 4 from urllib import

爬蟲_古詩文網(隊列，多線程，鎖，正則，xpath)

.get like type http pre stat apple writer except 1 import requests 2 from queue import Queue 3 import threading 4 from lxml

python 遠程批量多線程paramiko 和 threading案例

man 技術分享 main 分享 str ces 就是圖片 target 初步理解多線程的好處這兩個例子告訴我們同樣的事情，一個用了8s一個用了5s這就是多線程並發執行的好處。 paramiko 和 threading 多線程遠程執行的基本案例--[root@scsv0

【Python爬蟲學習筆記10】多線程中的生產者消費者模式

其中因此問題共享 and 生產者消費者模式共享問題由於接下來在多線程編程中，最經典的模式是生產者消費者模式。其中，生產者是專門用來生產數據的線程，它把數據存放在一個中間變量中；而消費者則從這個中間變量取出數據進行消費。由於生產者和消費者共享中間變量，這些變量大

C#多線程案例基礎

開始效果 adk lse alc 什麽是 vat 系統資源 text 在學習多線程之前，我們先來看幾個概念： 1，什麽是進程？當一個程序開始運行時，它就是一個進程，進程包括運行中的程序和程序所使用到的內存和系統資源，當然一個程序也可能開啟多個進程。而一個進程

經典案例那個什麽多線程--賣票..........................就是好像有點不對~~！先寫下來.有大哥哥，大姐姐幫看下嗎

tst dem vat ole 多線程快的 args str ring package javawork; public class RunnableDemo2 { public static void main(String[] args) { Runnable02

多線程爬蟲案例

多線程糗事百科案例

Queue（隊列對象）

多線程示意圖

相關推薦