python使用多執行緒爬取表情包

阿新 • • 發佈：2019-02-14

使用多執行緒爬取資料可以顯著提高效率

編輯環境：pycharm
目標：爬取表情包庫的所有表情包
首先在同目錄下建一個images資料夾

程式碼如下

#coding:utf8

import os
import threading
import requests
import urllib
from bs4 import BeautifulSoup

base_page_url = 'https://www.doutula.com/photo/list/?page='
#頁面url列表
page_url_list = []
#表情url列表
face_url_list = []
#全域性鎖 

glock = threading.Lock()
for x in range(1,870):
    url = base_page_url + str(x)
    page_url_list.append(url)

def procuder():
    while True:
        glock.acquire()
        if len(page_url_list) == 0:
            glock.release()
            break
        else:
            page_url = page_url_list.pop()
            glock.release()
            response = requests.get(page_url)
            content = response.content
            soup = BeautifulSoup(content, 'lxml' 
)
            img_list = soup.find_all('img', attrs={'class': 'img-responsive lazy image_dta'})
            glock.acquire()
            for img in img_list:
                url = img['data-original']
                if not url.startswith('http'):
                    url = 'http:' + url
                face_url_list.append(url)
            glock.release()

def 
 customer():
    while True:
        glock.acquire()
        if len(face_url_list)==0:
            glock.release()
            continue
        else:
            face_url = face_url_list.pop()
            glock.release()
            split_list = face_url.split('/')
            filename = split_list.pop()
            path = os.path.join('images', filename)
            urllib.urlretrieve(face_url, filename=path)

def main():
    #建立4個多執行緒作為生產者，爬取圖片
    for x in range(4):
        th = threading.Thread(target=procuder)
        th.start()
    #建立5個多執行緒作為消費者，下載圖片
    for x in range(5):
        th = threading.Thread(target=customer)
        th.start()

if __name__ =='__main__':
    main()

一共4w多張表情包，美滋滋

python使用多執行緒爬取表情包

使用多執行緒爬取資料可以顯著提高效率編輯環境：pycharm 目標：爬取表情包庫的所有表情包首先在同目錄下建一個images資料夾程式碼如下 #cod

多執行緒爬取表情包，鬥圖再也難不倒我了

前言過元旦的這段時間，小編在群裡瘋狂的搶紅包。過程中群裡的表情包滿天飛，於是小編便去瞄了一眼自己收藏的表情包。那個數目真是少的可憐啊~ 這不是明擺著不把小編放在眼裡麼？於是小編自己動手自己爬取了各種表情包，鬥圖再也難不倒小編了哈哈~（豬叫聲）程式碼

python多執行緒爬取網頁

#-*- encoding:utf8 -*- ''' Created on 2018年12月25日 @author: Administrator ''' from multiprocessing.dummy import Pool as pl import csv import requests fr

Python爬蟲入門教程 13-100 鬥圖啦表情包多執行緒爬取

寫在前面今天在CSDN部落格，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裡面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多執行緒版本的。關鍵技術點 aiohttp ，你可以看一下我前面的文章，然後在學習一下。網站就不分析了，無非就是找到規律，拼接URL，匹配關鍵點，然後爬取。擼

使用python的requests、xpath和多執行緒爬取糗事百科的段子

程式碼主要使用的python中的requests模組、xpath功能和threading多執行緒爬取了糗事百科中段子的內容、圖片和閱讀數、段子作者的性別，年齡和頭像。 # author: aspiring import requests from lxml import

Python爬蟲入門教程 10-100 圖蟲網多執行緒爬取

寫在前面經歷了一頓噼裡啪啦的操作之後，終於我把部落格寫到了第10篇，後面，慢慢的會涉及到更多的爬蟲模組，有人問scrapy 啥時候開始用，這個我預計要在30篇以後了吧，後面的套路依舊慢節奏的，所以莫著急了，100篇呢，預計4~5個月寫完，常見的反反爬後面也會寫的，還有fuck login類的內容。

Python爬蟲教程：圖蟲網多執行緒爬取

我們這次也玩點以前沒寫過的，使用python中的queue，也就是佇列下面是我從別人那順來的一些解釋，基本爬蟲初期也就用到這麼多 Python學習資料或者需要程式碼、視訊加Python學習群：960410445 1. 初始化： classQueue.Queue(maxsize)FIFO

Python爬蟲入門教程 14-100 All IT eBooks多執行緒爬取

寫在前面對一個爬蟲愛好者來說，或多或少都有這麼一點點的收集癖 ~ 發現好的圖片，發現好的書籍，發現各種能存放在電腦上的東西，都喜歡把它批量的爬取下來。然後放著，是的，就這麼放著.......然後慢慢的遺忘掉..... 爬蟲分析開啟網址 http://www.allitebooks.c

Python爬蟲教程：多執行緒爬取電子書

程式碼非常簡單，有咱們前面的教程做鋪墊，很少的程式碼就可以實現完整的功能了，最後把採集到的內容寫到 csv 檔案裡面，( csv 是啥，你百度一下就知道了) 這段程式碼是 IO密集操作我們採用 aiohttp 模

Python爬蟲入門教程 10-100 圖蟲網多執行緒爬取！

寫在前面經歷了一頓噼裡啪啦的操作之後，終於我把部落格寫到了第10篇，後面，慢慢的會涉及到更多的爬蟲模組，有人問 scrapy 啥時候開始用，這個我預計要在30篇以後了吧，後面的套路依舊慢節奏的，所以莫著急了，100篇呢，預計4~5個月寫完，常見的反反爬後面也會寫的，還有fuck login類的

Python 爬蟲多執行緒爬取美女圖片儲存到本地

Wanning 我們不是生產者,我們只是搬運工資源來至於，程式碼基於Python 3.5.2 友情提醒：血氣方剛的騷年。請謹慎閱圖！！！謹慎閱圖！！！謹慎閱圖！

python爬蟲進階使用多執行緒爬取小說

Python多執行緒，thread標準庫。都說Python的多執行緒是雞肋，推薦使用多程序。 Python為了安全考慮有一個GIL。每個CPU在同一時間只能執行一個執行緒 GIL的全稱是Global Interpreter

python簡單爬蟲多執行緒爬取京東淘寶資訊教程

1,需要準備的工作，電腦已經安裝好python，如果沒裝，可以執行去https://www.python.org/官網下載，初學者可以安裝輕量級的wingide python開發工具，python安裝成功後配置好環境變數，在dos環境使用pip install 模組將需要用

教你用 Python 多執行緒爬京東商城商品評論（代理ip請閱讀上一篇）

爬蟲永不停息最近改進上一篇的爬蟲，不爬豆瓣了，改爬一爬京東評論，先放幾張圖研究看看先。研究了一下，發現商品的id就是連結.html前面的數字。我們把它複製貼上下拉 1,對上一篇的代表進行修改和新增 class Spider(): def

spider----利用多執行緒爬取51job案例

程式碼如下 import json from threading import Thread from threading import Lock from queue import Queue import requests from bs4 import BeautifulSoup i

Jsoup簡單例子2.0——多執行緒爬取網頁內的郵箱

上一篇文章講了利用Jsoup爬取貼吧帖子裡的郵箱，雖然爬取成功了，但我對效率有所追求。10頁的帖子爬取了兩百多個郵箱，最快用時8秒，一般需要9秒。在思考了一下怎麼提升效率後，決定採用多執行緒的方式爬取網頁內的郵箱。廢話不多說，直接上程式碼。引入Jsoup的jar包此處省略，沒有的可以檢視上篇文

【Python3爬蟲-爬圖片】多執行緒爬取中國國家地理全站美圖，多圖可以提高你的審美哦

宣告：爬蟲為學習使用，請各位同學務必不要對當放網站或i伺服器造成傷害。務必不要寫死迴圈。 - 思路：古鎮——古鎮列表（迴圈獲取古鎮詳情href）——xx古鎮詳情（獲取所有img的src） - 1. 單分類爬： from bs4 import BeautifulSo

使用threading,queue,fake_useragent,requests ,lxml,多執行緒爬取嗅事百科13頁文字資料,爬蟲案例

#author:huangtao # coding=utf-8 #多執行緒庫 from threading import Thread #佇列庫 from queue import Queue #請求庫 from fake_useragent import UserAgent

java redis多執行緒爬取國美商品資訊

前面那篇爬蟲文章用的是單執行緒沒有用到其它一些比較提高效率的工具比較遺憾，所以今天做了一個比較全面的爬蟲。首先謝謝 @[天不生我萬古長](https://www.jianshu.com/u/e34019621ee9)這位小夥伴的留言，不然還真有點懶了。因為上班所以也只能利用

多執行緒爬取鬥圖圖片

結果演示程式碼： #encoding:utf-8 # __author__ = 'donghao' # __time__ = 2018/12/24 15:20 import requests import threading import urllib.re

python使用多執行緒爬取表情包

相關推薦