執行緒池在爬蟲案例中的應用

阿新 • • 發佈：2020-07-28

import requests 
from lxml import etree
import re 
from multiprocessing.dummy import Pool
#需求：爬取梨視訊的視訊資料
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2626.106 Safari/537.36'
}
#原則：執行緒池處理的是阻塞且較為耗時的操作

#對url發起請求，解析出視訊詳情頁的url和名稱
url = 'https://www.pearvideo.com/category_5'
page_text = requests.get(url=url,headers=headers).text

tree = etree.HTML(page_text)
li_list = tree.xpath('//ul[@id="listvideoListUl"]/li')
urls = []   #儲存所有視訊的連結和名字
for li in li_list:
    detail_url = 'https://www.pearvideo.com/'+li.xpath('./div/a/@href')[0]
    name = li.xpath('./div/a/div[2]/text()')[0]+'.mp4'
    # print(detail_url,name)
    #對詳情頁的url發起請求
    detail_page_text = requests.get(url=detail_url,headers=headers).text
    #從詳情頁中解析出視訊的地址url

    ex = 'srcUrl="(.*?)",vdoUrl'
    video_url = re.findall(ex,detail_page_text)[0]
    dic = {
        'name':name,
        'url':video_url
    }
    urls.append(dic)
#對視訊連結發起請求獲取二進位制資料，然後將視訊資料進行返回
def get_video_data(dic):
    url = dic['url']
    print(dic['name'],'正在下載!')
    data = requests.get(url=url,headers=headers).content
    #持久化儲存操作
    with open(dic['name'],'wb') as fp:
        fp.write(data)
        print(dic['name'],'下載成功!')
#使用執行緒池對視訊資料進行請求（較為耗時的阻塞操作）
pool = Pool(4)
pool.map(get_video_data,urls)

pool.close()
pool.join()

執行緒池的理解與應用

目錄執行緒池的理解（簡單概述） Async執行緒池（加配置） Scheduled（加配置）

執行緒池在爬蟲案例中的應用

import requests from lxml import etree import re from multiprocessing.dummy import Pool #需求：爬取梨視訊的視訊資料

應用案例——執行緒池中的任務佇列

執行緒池－由一個任務佇列和一組處理佇列的執行緒組成。一旦工作程序需要處理某個可能“阻塞”的操作，不用自己操作，將其作為一個任務放到執行緒池的佇列，接著會被某個空閒執行緒提取處理。

時間輪演算法在Netty和Kafka中的應用，為什麼不用Timer、延時執行緒池？

大家好，我是yes。最近看 Kafka 看到了時間輪演算法，記得以前看 Netty 也看到過這玩意，沒太過關注。今天就來看看時間輪到底是什麼東西。

Java程式中常用的四種執行緒池示例

在Java中使用執行緒池，可以用ThreadPoolExecutor的建構函式直接創建出執行緒池例項，如何使用參見之前的文章Java執行緒池構造引數詳解。不過，在Executors類中，為我們提供了常用執行緒池的建立方法。接下來我們就來

執行緒池應用及實現原理剖析

為什麼要用執行緒池執行緒是不是越多好？執行緒在Java中是一個物件，更是作業系統的資源，執行緒額建立和銷燬都需要時間，如果建立時間+銷燬時間>執行任務時間就很不合算

關於SpringBoot中Redis執行緒池的有關探討

探討起因最近在寫一個小專案，用redis過期來實現驗證碼的時間限制。因為SpringBoot預設採用

Java執行緒池的應用例項分析

本文例項講述了Java執行緒池的應用。分享給大家供大家參考，具體如下：一使用Future與Callable來計算斐波那契數列

Java執行緒池用法實戰案例分析

本文例項講述了Java執行緒池用法。分享給大家供大家參考，具體如下：一使用newSingleThreadExecutor建立一個只包含一個執行緒的執行緒池

python爬蟲執行緒池建立並獲取檔案程式碼例項

本例項主要進行執行緒池建立，多執行緒獲取、儲存視訊檔案梨視訊：利用執行緒池進行視訊爬取

執行緒池中使用spring aop事務增強

這篇文章主要介紹了執行緒池中使用spring aop事務增強,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

解決python ThreadPoolExecutor 執行緒池中的異常捕獲問題

問題最近寫了涉及執行緒池及執行緒的 python 指令碼，執行過程中發現一個有趣的現象，執行緒池中的工作執行緒出現問題，引發了異常，但是主執行緒沒有捕獲異常，還在發現 BUG 之前一度以為執行緒池程式碼正常返回。

springboot中@Async預設執行緒池導致OOM問題

前言： 1.最近專案上在測試人員壓測過程中發現了OOM問題，專案使用springboot搭建專案工程，通過檢視日誌中包含資訊：unable to create new native thread

Java 執行緒池中的執行緒複用是如何實現的？

前幾天，技術群裡有個群友問了一個關於執行緒池的問題，內容如圖所示：關於執行緒池相關知識可以先看下這篇：為什麼阿里巴巴Java開發手冊中強制要求執行緒池不允許使用Executors建立？

使用執行緒池+CountDownLatch 實現多執行緒協同工作結果彙總（適用於資料運算分析，資料庫操作，網頁爬蟲）

多執行緒資料去重使用示例： public void obtainSimilarityRate() { List<FgTestR3> zjFg = list((new QueryWrapper<FgTestR3>())

Java中常用的四種執行緒池，你瞭解多少？

newFixedThreadPool 首先，看一下這種執行緒池的建立方法： public static ExecutorService newFixedThreadPool(int nThreads) {

Java中多執行緒的使用（超級超級詳細）執行緒池 7

Java中多執行緒的使用（超級超級詳細）執行緒池 7 什麼是執行緒池？執行緒池是一個容納多個執行緒的容器，執行緒池中的執行緒可以重複使用，無需反覆建立執行緒而消耗過多的資源

萬字圖文 | 學會Java中的執行緒池，這一篇也許就夠了！

作者：一枝花算不算浪漫來源：https://mp.weixin.qq.com/s/b9zF6jcZQn6wdjzo8C-TmA 執行緒池原理思維導圖.png

java中常見的四種執行緒池

前言：我們之前使用執行緒的時候都是使用new Thread來進行執行緒的建立，但是這樣會有一些問題。如：

java中四種執行緒池及poolSize、corePoolSize、maximumPoolSize

Executors提供四種執行緒池： newCachedThreadPool ：快取執行緒池，如果執行緒池長度超過處理需要，可回收空閒執行緒，若無可回收，則新建執行緒。

執行緒池在爬蟲案例中的應用

相關推薦