使用線程池進行爬蟲

阿新 • • 發佈：2018-01-17

線程 detail pip3 dsw ont form exce done pat

import requests #pip3 install requests
import re
import hashlib
import time
from concurrent.futures import ThreadPoolExecutor

pool=ThreadPoolExecutor(50)
movie_path=r‘C:\mp4‘

def get_page(url):
    try:
        response=requests.get(url)
        if response.status_code == 200:
            return response.text
     
except Exception:
        pass

def parse_index(index_page):
    index_page=index_page.result()
    urls=re.findall(‘class="items".*?href="(.*?)"‘,index_page,re.S)
    for detail_url in urls:
        if not detail_url.startswith(‘http‘):
            detail_url=‘http://www.xiaohuar.com‘+detail_url
        pool.submit(get_page,detail_url).add_done_callback(parse_detail)

 
def parse_detail(detail_page):
    detail_page=detail_page.result()
    l=re.findall(‘id="media".*?src="(.*?)"‘,detail_page,re.S)
    if l:
        movie_url=l[0]
        if movie_url.endswith(‘mp4‘):
            pool.submit(get_movie,movie_url)

def get_movie(url):
    try:
        response=requests.get(url)
         
if response.status_code == 200:
            m=hashlib.md5()
            m.update(str(time.time()).encode(‘utf-8‘))
            m.update(url.encode(‘utf-8‘))
            filepath=‘%s\%s.mp4‘ %(movie_path,m.hexdigest())
            with open(filepath,‘wb‘) as f:
                f.write(response.content)
                print(‘%s 下載成功‘ %url)
    except Exception:
        pass

def main():
    base_url=‘http://www.xiaohuar.com/list-3-{page_num}.html‘
    for i in range(5):
        url=base_url.format(page_num=i)
        pool.submit(get_page,url).add_done_callback(parse_index)

if __name__ == ‘__main__‘:
    main()

使用線程池進行爬蟲

線程 detail pip3 dsw ont form exce done pat import requests #pip3 install requests import re import hashlib import time from concurrent.fu

python爬蟲之線程池和進程池

偏見通信內存空間正常 io操作爬取網站總結性能一、需求　　最近準備爬取某電商網站的數據，先不考慮代理、分布式，先說效率問題（當然你要是請求的太快就會被封掉，親測，400個請求過去，服務器直接拒絕連接，心碎），步入正題。一般情況下小白的我們第一個想到的是fo

mysql線程池的實現原理淺析

new one lose clear pre turn logs color 否則今天抽空主要看了一下mysql線程池（cached threads）的實現原理，總體並不那麽復雜，也學到了一些設計原理，值得記錄一下。為了簡化代碼，讓思路更清晰，我刪去了不少錯誤處理，線程同

【轉載】5天不再懼怕多線程——第五天線程池

執行 targe 空閑 timer max als htm port 電腦說到多線程，不可不說線程池，C#中關於池的概念很多，今天來整理下ThreadPool的使用。是的，如果你很懶，如果你的執行任務比較短，如果你不想對線程做更精細的控制，那麽把這些繁瑣的東西

JDFS:一款分布式文件管理實用程序第一篇(線程池、epoll、上傳、下載)

cpu nload tree 程序 fun 是的發的 fop let 一前言　　截止目前，筆者在博客園上面已經發表了3篇關於網絡下載的文章，這三篇博客實現了基於socket的http多線程遠程斷點下載實用程序。筆者打算在此基礎上開發出一款分布式文件管理實用程序，截止目

線程池參數詳解

線程池參數線程池參數 java JDK1.5中引入了強大的concurrent包，其中最常用的莫過了線程池的實現ThreadPoolExecutor，它給我們帶來了極大的方便，但同時，對於該線程池不恰當的設置也可能使其效率並不能達到預期的效果，甚至僅相當於或低於單線程的效率。ThreadP

java和spring 線程池總結

一段 getname span 只有一個 [] 觸發 sts time execute 1. spring 的線程池 ThreadPoolTaskExecutor @Configuration public class ThreadPoolConfig {

nginx源碼分析——線程池

memory args 結構體功能報錯 threads 退出 endif efault 源碼： nginx 1.13.0-release 一、前言 nginx是采用多進程模型，master和worker之間主要通過pipe管道的方式進行通信，多進程的優勢就

c#自己實現線程池功能(二)

mod 線程池 sharp ise except mar 函數 rac 試圖介紹在上一篇c#自己實現線程池功能(一)中，我們基本實現了一個能夠執行的程序。而不能真正的稱作線程池。因為是上篇中的代碼有個致命的bug那就是沒有任務是並非等待，而是瘋狂的進行while循環

Java 線程池的原理與實現

控制 try 所在使用 urn str waiting media .info 這幾天主要是狂看源程序，在彌補了一些曾經知識空白的同一時候，也學會了不少新的知識（比方 NIO）。或者稱為新技術吧。線程池就是當中之中的一個，一提到線程。我們會想到曾經《操作系統》的

轉：【Java並發編程】之十九：並發新特性—Executor框架與線程池（含代碼）

接口類容易 20px 了解大小執行c 生命周期 schedule p s Executor框架簡介在Java 5之後，並發編程引入了一堆新的啟動、調度和管理線程的API。Executor框架便是Java 5中引入的，其內部使用了線程池機制，它在java.

跟我學Java多線程——線程池與堵塞隊列

信號線程的創建 margin cit rect weight offer 成功 rain 前言上一篇文章中我們將ThreadPoolExecutor進行了深入的學習和介紹，實際上我們在項目中應用的時候非常少有直接應用ThreadPoolExecutor來

單線程與線程池的性能對比

block execute for try log lsi down blocking exe 親自嘗試了之後才發現，雖然同是一個線程在工作，但是使用線程池效率竟然可以提升這麽多！代碼如下： 1 package cn.sp.test; 2 3 import ja

使用ExecutorService實現線程池

控制固定 public style [] ati 關閉 run ren ExecutorService是java提供的用於管理線程池的類。線程池的作用：　　- 控制線程數量　　- 重用線程　　當一個程序中創建了許多線程，並在任務結束後銷毀，會給系統帶來過度消耗資源

Java線程池關閉1-shutdown和isTerminated<轉>

ride shu csdn nat err interrupt .net fin cat shutdownvoid shutdown()啟動一次順序關閉，執行以前提交的任務，但不接受新任務。若已經關閉，則調用沒有其他作用。拋出：SecurityException - 如果安

[Java]線程池

sta 狀態 lsi fun man his prop () mil 在沒有看不論什麽代碼之前首先想一下線程池應該有哪幾部分：任務隊列線程任務隊列非常好辦，直接用堵塞隊列就能夠了：BlockingQueue<Runnable> workQueue。

ThreadPoolExecutor線程池的分析和使用

pro rep interrupt rup bsp roc 停止可用 method 1. 引言合理利用線程池能夠帶來三個好處。第一：降低資源消耗。通過重復利用已創建的線程降低線程創建和銷毀造成的消耗。第二：提高響應速度。當任務到達時，任務可以不需要等到線程創建就能立

第八章、線程池的使用

else 增加 void actor package class 全局 link catch 線程工廠的使用：　　在創建線程時，應該要初始化它的線程名稱，以便以後更好的查找錯誤，下面的示例展示了線程工廠的使用,創建線程是並發的，因此count使用原子類。 impor

Java線程池

程序運行 fix 更新 exec span 新的回收所有 CachedThreadPool 會在程序執行過程中通常會創建與所需數量想用的線程，然後在它回收舊線程時，停止創建新的線程，因此它是合理的Excecutor的首選。只有當這種方式會引發問題時，你猜需要

線程池概念理解

data clas rejected 更新 dal amp 定時 btn 服務轉 Java線程池解析作者

使用線程池進行爬蟲

相關推薦