python 併發非同步下載

阿新 • • 發佈：2019-01-04

下面使用了concurrent.future : 併發入門

例子中的ThreadPoolExecutor可以改成ProcessPoolExecutor 試試看,介面統一

另外ProcessPoolExecutor 的引數預設值:os.cpu_count()

map , submit, as_completed的引數及返回.參考文件

分別使用了map 以及 submit 和 as_completed完成下載;

注意: as_completed 返回的future是完成或失敗的.正在執行的不會返回;

可以修改max_workers引數看看變化

首先是map方法 . 如果你修改了我的程式碼去迭代map的返回值需要注意迭代過程中會呼叫future.result() 因此會阻塞,

而我的程式碼中會阻塞的原因是在with 塊中,最後會呼叫executor.shutdown,這個函式會等待所有的執行緒完成或失敗

from concurrent import futures
import requests,time,sys,os

#常量
FLAGS = ('CN IN US ID BR PK NG BD RU JP ' 
         'MX PH VN ET EG DE IR TR CD FR').split()
BASE_URL = 'http://flupy.org/data/flags'        #下載url
DEST_DIR = 'downloads/'                           #儲存目錄
CHUNK_SIZE = 8192                                  #塊大小
MAX_THREAD = 20                                    #併發最多20個執行緒

"""
    使用requests 來請求下載;
    對於下載小檔案不需要使用iter_content,
    直接使用requests.get(url).content即可.
    這個例子適用了下載大檔案的情況.
    requests庫的使用可以參考:
    http://docs.python-requests.org/zh_CN/latest/user/quickstart.html
"""
#下載主體
def begin_download(flag):
    path = os.path.join(DEST_DIR, flag.lower()+'.gif')
    print('開始下載:%s,儲存位置:%s'%(flag,path),end='\n')
    sys.stdout.flush()
    url = '{}/{flag}/{flag}.gif'.format(BASE_URL, flag=flag.lower())
    #以下程式碼如果做測試可以改成:open(path,'wb').write(requests.get(url)) 即可
    with requests.get(url,stream=True) as resp:              #請求下載,stream=True流下載.
        with open(path,'wb') as fd:                          #開啟檔案
            for chunk in resp.iter_content(CHUNK_SIZE):      #分塊請求檔案流
                fd.write(chunk)                               #寫檔案
    print('%s done!'%flag);return flag


#計算了檔案下載時間
def t_download():
    start_time = time.time()
    #多執行緒下載,每個url分配一個執行緒
    with futures.ThreadPoolExecutor(max_workers=min(len(FLAGS),MAX_THREAD)) as ex:
        iter_res = ex.map(begin_download,FLAGS)
    elapsed = time.time() - start_time
    print('all done :{}s'.format(elapsed))
if __name__ == '__main__':
    os.makedirs(DEST_DIR,exist_ok=True)
    t_download()

接下來是submit (返回一個future)和as_completed(接受一個future列表,返回一個生成器,哪個任務先完成就返回其future),

只把上面的 t_download 修改一下:

def t1_download():
    start_time = time.time()
    future_tasks = []
    results = []
    with futures.ThreadPoolExecutor(max_workers=min(len(FLAGS),MAX_THREAD)) as ex:
        print('準備新增執行緒..')
        for flag in FLAGS:
            future_tasks.append(ex.submit(begin_download,flag))
        print('執行緒新增完畢..')
        for f in futures.as_completed(future_tasks):
            try:
                res = f.result()
            except Exception as e:
                print('%s下載失敗, except:%s'%(res,e))
            else:
                results.append(res)
    elapsed = time.time() - start_time
    print('總共完成->%d<-個任務'%len(results))
    print('all done :{}s'.format(elapsed))

下面添加了進度條, 使用tqdm.基本程式碼都沒變:

def t1_download():
    start_time = time.time()
    future_tasks = []
    results = []
    with futures.ThreadPoolExecutor(max_workers=min(len(FLAGS),MAX_THREAD)) as ex:
        for flag in FLAGS:
            future_tasks.append(ex.submit(begin_download,flag))
        done_iter = futures.as_completed(future_tasks)
        done_iter = tqdm.tqdm(done_iter,total=len(future_tasks))
        for future in done_iter:
            try:
                res = future.result()
            except Exception as e:
                print('%s'%e)
            else:
                results.append(res)
    elapsed = time.time() - start_time
    print('總共完成->%d<-個任務'%len(results))
    print('all done :{}s'.format(elapsed))

下面使用了非同步下載:

import os,sys,time,asyncio,aiohttp

FLAGS = ('CN IN US ID BR PK NG BD RU JP ' 
         'MX PH VN ET EG DE IR TR CD FR').split()
BASE_URL = 'http://flupy.org/data/flags'        #下載url
DEST_DIR = 'downloads/'                           #儲存目錄

async def fetch(session:aiohttp.ClientSession,url:str,path:str,flag:str):
    print(flag, ' 開始下載')
    async with session.get(url) as resp:
        with open(path,'wb') as fd:
            while 1:
                chunk = await resp.content.read(8196)
                if not chunk:
                    break
                fd.write(chunk)
    return flag

async def download():
    tasks = []
    async with aiohttp.ClientSession() as session:
        for flag in FLAGS:
            path = os.path.join(DEST_DIR, flag.lower() + '.gif')
            url = '{}/{cc}/{cc}.gif'.format(BASE_URL, cc=flag.lower())
            tasks.append(asyncio.ensure_future(fetch(session, url, path, flag)))
        await asyncio.wait(tasks)
        # for coroutine in asyncio.as_completed(tasks):
        #     res = await coroutine
        #     print('%s下載完成' % res)

os.makedirs(DEST_DIR,exist_ok=True)
lp = asyncio.get_event_loop()
start = time.time()
lp.run_until_complete(download())
end = time.time()
lp.close()
print('耗時:',end-start)

python 併發非同步下載

下面使用了concurrent.future : 併發入門例子中的ThreadPoolExecutor可以改成ProcessPoolExecutor 試試看,介面統一另外ProcessPoolExecutor 的引數預設值:os.cpu_count()

Python併發程式設計之同步\非同步and阻塞\非阻塞

一、什麼是程序程序：正在進行的一個過程或者說一個任務。而負責執行任務則是cpu。程序和程式的區別：程式僅僅只是一堆程式碼而已，而程序指的是程式的執行過程。需要強調的是：同一個程式執行兩次，那也是兩個程序，比如開啟暴風影音，雖然都是同一個軟體，但是一個可以播郭德綱，一個可以播高曉鬆。二、並行

python併發程式設計之多程序、多執行緒、非同步和協程

一、多執行緒　　多執行緒就是允許一個程序記憶體在多個控制權，以便讓多個函式同時處於啟用狀態，從而讓多個函式的操作同時執行。即使是單CPU的計算機，也可以通過不停地在不同執行緒的指令間切換，從而造成多執行緒同時執行的效果。　　多執行緒相當於一個併發(concunrr

Python併發程式設計之協程/非同步IO

引言隨著node.js的盛行，相信大家今年多多少少都聽到了非同步程式設計這個概念。Python社群雖然對於非同步程式設計的支援相比其他語言稍顯遲緩，但是也在Python3.4中加入了asyncio，在Python3.5上又提供了async/await語法層面的支援，剛正式釋

python學習1-Python內置下載服務器

測試 too http服務器命令 nac title src href pre python內置下載HTTP服務器：測試環境：windows 10 Anaconda 3C:\Users\ztywolf>python --version Python 3.6.3 ::

爬蟲高玩教你用Python每秒鐘下載一張高清大圖，快不快？

on() print async tpc 多說 xxx ima 所有 mkdir 如果爬蟲需要展現速度，我覺得就是去下載圖片吧，原本是想選擇去煎蛋那裏下載圖片的，那裏的美女圖片都是高質量的，我稿子都是差不多寫好了的，無奈今天重新看下，妹子圖的入口給關了。至於

python+pandas+openpyxl下載xls illegalCharacterError

not 下載去掉 mark http edi url sub set 僅僅是urllib2.unquote_plus解碼是不夠的，需要將特殊字符去掉 ILLEGAL_CHARACTERS_RE = re.compile(r‘[\000-\010]|[\013-\0

python 喜馬拉雅音樂下載演示代碼

afa space pytho htm 進度 music ges data 增加 1、主程序文件import os import json import requests from contextlib import closing from progressbar im

Android多執行緒分析之一：使用Thread非同步下載影象

Android多執行緒分析之一：使用Thread非同步下載影象羅朝輝 (http://blog.csdn.net/kesalin) CC 許可，轉載請註明出處打算整理一下對 Android Framework 中多執行緒相關知識的理解，主要集中在 Fra

利用python內建下載器-快速分享檔案

一、任務場景：工作中需要將伺服器上的某些檔案傳給對應的同事，如果臨時去搭建檔案伺服器或者配置，操作起來不太方便二、比如臨時需要分享/tools這個目錄的檔案，操作方法如下： 1、採用http的方式進行分享 a) python2的版本中 # cd /tools #&nb

記錄一次python爬蟲批量下載一個校花網站的妹子圖片

學python也快2個禮拜了，從開始看別人寫的爬蟲程式碼，然後試著抄著學習，感覺沒太大進步，最大收穫就是改了幾處bug（可能有些地方不適用我的pyyhon平臺報錯）。中午看到一個帖子校花妹子圖使用爬蟲進行批量下載，看了下，感覺不錯（我說的技術，哈哈哈）。然後決定自己寫一個爬蟲，已經看書兩個禮

Python併發程式設計之執行緒池/程序池

Python併發程式設計之執行緒池/程序池 2017/01/18 · 基礎知識 · 2 評論 · 併發, 執行緒池, 程序池原文出處： ZiWenXie 引言 Pyt

Python 3.7極速入門教程9最佳python中文書籍下載

篩選了2年內優秀的python書籍，個別經典的書籍擴充套件到5年內。儘量只收集通用的書籍，專用的書籍只收集特別優秀者。 python專業書籍彙總 2018最佳人工智慧影象處理工具OpenCV書籍下載 Python基礎教程（第3版) - 2017.pdf &

Android使用非同步下載快取圖片

PicUtil.java package com.example.updateUtil; import java.io.BufferedInputStream; import java.io.BufferedOutputStream; import java.io.File; impor

Python併發程式設計之多執行緒使用

目錄一開啟執行緒的兩種方式二在一個程序下開啟多個執行緒與在一個程序下開啟多個子程序的區別三練習四執行緒相關的其他方法五守護執行緒六 Python GIL(Global Interpreter Lock) 七同步鎖八死鎖現象

python爬蟲8——下載視訊：you-get工具

由於博主經常性會學習一些視訊教程，除了自己下的外，就很像把公司買的視訊也下下來觀摩觀摩。先來一個軟體，叫you-get的包。一、you-get說明 You-Get 乃一小小噠命令列程式，提供便利的方式來下載網路上的媒體資訊。利用you-get下載這個網頁的視訊: &nb

python官網下載windows版本時各檔案的區別：web-based installer、executable installer、embeddable zip file，x86、x86-64

python官網下載windows版本時，存在web-based installer、executable installer、embeddable zip file，x86、x86-64等多種檔案，如下圖：下載連結1：https://www.python.org/downloads/

Python併發解決方案

一、subprocess模組 call()：執行命令，返回程式返回碼（int） import subprocess print(subprocess.call("mspaint")) check_output()：執行命令，返回輸出（bytes） im

Python併發簡介

什麼是併發？簡而言之，併發是指同時發生兩個或多個事件。併發是一種自然現象，因為許多事件在任何給定的時間同時發生。就程式設計而言，併發是兩個任務在執行過程中重疊的時候。通過併發程式設計，我們的應用程式和軟體系統的效能可以得到提高，因為我們可以同時處理請求，而不是等待前一個完成再處理下

python—Celery非同步分散式

python—Celery非同步分散式 Celery 是一個python開發的非同步分散式任務排程模組，是一個訊息傳輸的中介軟體，可以理解為一個郵箱，每當應用程式呼叫celery的非同步任務時，會向broker傳遞訊息，然後celery的worker從中取訊息 Celery 用於儲

python 併發 非同步 下載

相關推薦

python 併發非同步下載