使用執行緒池實現爬蟲的具體實現

阿新 • • 發佈：2018-12-15

# coding=utf-8
import requests
from lxml import etree
from queue import Queue
from multiprocessing.dummy import Pool
import time


class QiubaiSpider:
    def __init__(self):
        self.url_temp = "https://www.qiushibaike.com/8hr/page/{}/"
        self.headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X \
        10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36"}
        self.queue = Queue()
        self.pool = Pool(5)
        self.is_running = True
        self.total_requests_num = 0
        self.total_response_num = 0

    def get_url_list(self):  # 獲取url列表
        for i in range(1, 14):
            self.queue.put(self.url_temp.format(i))
            self.total_requests_num += 1

    def parse_url(self, url):  # 傳送請求，獲取響應
        return requests.get(url, headers=self.headers).content.decode()

    def get_content_list(self, html_str):  # 提取段子
        html = etree.HTML(html_str)
        div_list = html.xpath("//div[@id='content-left']/div")
        content_list = []
        for div in div_list:
            content = {}
            content["content"] = div.xpath(".//div[@class='content']/span/text()")
            print(content)
            content_list.append(content)
        return content_list

    def save_content_list(self, content_list):  # 儲存資料
        pass

    def exetute_requests_item_save(self):
        url = self.queue.get()
        html_str = self.parse_url(url)
        content_list = self.get_content_list(html_str)
        self.save_content_list(content_list)
        self.total_response_num += 1

    def _callback(self, temp):
        if self.is_running:
            self.pool.apply_async(self.exetute_requests_item_save, callback=self._callback)

    def run(self):
        self.get_url_list()

        for i in range(2):  # 控制併發
            self.pool.apply_async(self.exetute_requests_item_save, callback=self._callback)

        while True:  # 防止主執行緒結束
            time.sleep(0.0001)  # 避免cpu空轉，浪費資源
            if self.total_response_num >= self.total_requests_num:
                self.is_running = False
                break

        self.pool.close()  # 關閉執行緒池，防止新的執行緒開啟
        # self.pool.join() #等待所有的子執行緒結束

if __name__ == '__main__':
    qiubai = QiubaiSpider()
    qiubai.run()

jdk8新特性（Lambda表示式）結合spring 執行緒池，一行程式碼實現多執行緒

1.配置spring 執行緒池 @Configuration @EnableAsync @ConfigurationProperties(prefix="threadpool") public class ExecutePoolConfiguration { @V

通用執行緒池的設計和實現[C語言]

作者：鄒祁峰郵箱：[email protected] 日期：2012.12.28 轉載請註明來自"祁峰"的CSDN部落格 1 適用場景首先，必須明確一點，執行緒池不是萬能的，

epoll程式設計，單epoll+執行緒池？執行緒池+epoll？nginx實現高併發的原理？

草稿未驗證 1 epoll程式設計，如何實現高併發伺服器開發？ - 知乎 https://www.zhihu.com/question/21516827/answer/55127881 nginx 多程序網路程式設計的巔峰 memcached 多執行緒網路程式設計的巔峰 redis單

Liun下執行緒池的原理及實現

一.基本概念介紹程序執行中的程式，程式執行的動態描述執行緒執行緒是輕量級程序，沒有獨立的地址空間，共享程序的資源在linux下執行緒是CPU的基本排程單位。在巨集觀上執行緒是並行的，使用多執行緒可以有效提高cpu

Java併發核心基礎——執行緒池使用及底層實現機制詳解

Java執行緒池概述：從使用入手： java.util.concurrent.Executosr是執行緒池的靜態工廠，我們通常使用它方便地生產各種型別的執行緒池，主要的方法有三種： 1、newS

java中執行緒池的幾種實現方式

1、執行緒池簡介：多執行緒技術主要解決處理器單元內多個執行緒執行的問題，它可以顯著減少處理器單元的閒置時間，增加處理器單元的吞吐能力。假設一個伺服器完成一項任務所需時間為：T1 建立執行緒時間，T2 線上程中執行任務的時間，T3 銷燬執

通用執行緒池的設計和實現 C語言

作者：鄒祁峰郵箱：[email protected] 部落格

執行緒池的四種實現方式

ExecutorService是執行緒池介面。它定義了4中執行緒池：1.newCachedThreadPool：底層：返回ThreadPoolExecutor例項，corePoolSize為0；maximumPoolSize為Integer.MAX_VALUE；keepAli

執行緒池的原理及實現

1、執行緒池簡介：多執行緒技術主要解決處理器單元內多個執行緒執行的問題，它可以顯著減少處理器單元的閒置時間，增加處理器單元的吞吐能力。假設一個伺服器完成一項任務所需時間為：T1 建立執行緒時間，T2 線上程中執行任務的時間，T3 銷燬執行緒時間。如果：T1 + T3 遠大

Linux多執行緒實踐(9) --簡單執行緒池的設計與實現

執行緒池的技術背景在面向物件程式設計中，建立和銷燬物件是很費時間的，因為建立一個物件要獲取記憶體資源或者其它更多資源。在Java中更是如此，虛擬機器將試圖跟蹤每一個物件，以便能夠在物件銷燬後進行垃圾回收。所以提高服務程式效率的一個手段就是儘可能減少建立和銷燬物件的次數，

Java Executor併發框架（十四）Executor框架執行緒池使用原始方式實現生產者消費者模式

我們可以利用wait()來讓一個執行緒在某些條件下暫停執行。例如，在生產者消費者模型中，生產者執行緒在緩衝區為滿的時候，消費者在緩衝區為空的時候，都應該暫停執行。如果某些執行緒在等待某些條件觸發，那當那些條件為真時，你可以用 notify 和 notifyAll 來通知那些等待中的執行緒重

執行緒池執行緒池的四種實現方式

ExecutorService是執行緒池介面。它定義了4中執行緒池： 1. newCachedThreadPool：底層：返回

關於執行緒池的五種實現方式，七大引數，四種拒絕策略

## 1 池化技術之執行緒池什麼是池化技術？簡單來說就是優化資源的使用，我準備好了一些資源，有人要用就到我這裡拿，用完了就還給我。而一個比較重要的的實現就是執行緒池。那麼執行緒池用到了池化技術有什麼好處呢？ - 降低資源的消耗 - 提高響應的速度 - 方便管理 ***也就是執行緒複用、可以控制最大併發

使用執行緒池實現爬蟲的具體實現

# coding=utf-8 import requests from lxml import etree from queue import Queue from multiprocessing.dummy import Pool import time class

python執行緒池實現網路爬蟲

http://blog.daviesliu.net/2006/10/09/234822/ 首先是建立執行緒池：執行緒池主要由兩個佇列維護，執行緒佇列和任務佇列，執行緒佇列存放開啟的執行緒，任務佇列由使用者新增任務，開啟的執行緒一直去任務佇列中獲取任務 import Q

【原始碼剖析】threadpool —— 基於 pthread 實現的簡單執行緒池

部落格新地址：https://github.com/AngryHacker/articles/issues/1#issue-369867252 執行緒池介紹執行緒池可以說是專案中經常會用到的元件，在這裡假設讀者都有一定的多執行緒基礎，如果沒有的話不妨在這裡進行了解：POSIX

【Java】執行緒池ThreadPoolExecutor實現原理

引言執行緒池：可以理解為緩衝區，由於頻繁的建立銷燬執行緒會帶來一定的成本，可以預先建立但不立即銷燬，以共享方式為別人提供服務，一來可以提供效率，再者可以控制執行緒無線擴張。合理利用執行緒池能夠帶來三個好處：降低資源消耗。通過重複利用已建立的執行緒降低執行緒建立和銷燬造

實現一個執行緒池

1.定義執行緒池 //業務執行緒池 private static final ExecutorService executor = Executors.newFixedThreadPool(Runtime.getRuntime().availableProcessors()

【程式設計筆記】執行緒池實現原始碼（從POCO中剝離出來）

原始碼下載：https://download.csdn.net/download/fzuim/10625204 CThreadPool類 /***************************************************************

如何實現自己的執行緒池（不看後悔，一看必懂）

首先，在服務啟動的時候，我們可以啟動好幾個執行緒，並用一個容器(如執行緒池)來管理這些執行緒。當請求到來時，可以從池中取一個執行緒出來，執行任務(通常是對請求的響應)，當任務結束後，再將這個執行緒放入池中備用；如果請求到來而池中沒有空閒的執行緒，該請求需要排隊等候。最後，當服務關閉時銷燬該池即可

使用執行緒池實現爬蟲的具體實現

相關推薦