python爬蟲學習多程序下載圖片

阿新 • • 發佈：2019-01-23

import requests
import urllib.request
from  bs4 import BeautifulSoup
import os, re
import datetime
from multiprocessing import Pool

total_page = 0
class Spider:
    # 初始化網址
    def __init__(self):
        self.url = "http://www.zbjuran.com/mei"
        # 獲取該網頁的所有模特連結

    def get_image_urls(self):
        msgList = []
        for i in range(1, 30):
            url = self.url + "/qingchun/list_14_" + str(i) + ".html"
            html = requests.get(url).text
            soup = BeautifulSoup(html, 'lxml')
            all_urls = soup.find_all(class_="picbox")
            # print(all_urls)
            for url in all_urls:
                img_name = url.find('img')['alt']
                # print(img_name)
                img_url = 'http://www.zbjuran.com' + url.find('a')['href']
                # print(img_url)
                msgList.append([img_name, img_url])
        print(len(msgList))
        return msgList
        # 建立儲存資料夾

    def createDirectory(self, filename):
        path = "E:/爬蟲/圖片/" + filename
        if not os.path.exists(path):
            os.makedirs(path)
        return path
        # 下載的圖片

    def down_image(self, url, path):

        # for url in urlList:
        # 網頁讀取
        myurl = url[1]
        html = requests.get(myurl)
        # 編碼網頁
        html.encoding = 'gb2312'
        html = html.text
        soup = BeautifulSoup(html, 'lxml')
        # 讀取圖片數目
        page_num = soup.find(class_='page').li.a.text
        page_num = re.sub('\D', '', page_num)
        # 計算總圖片數目
        global total_page
        total_page += int(page_num)
        print("本頁面共有%s張照片" % page_num)

        # 下載圖片
        for i in range(1, int(page_num) + 1):
            if i == 1:
                rp = '.html'
            else:
                rp = '_%s.html' % i
            urlSite = myurl.replace('.html', rp)
            html = requests.get(urlSite)
            html.encoding = 'gb2312'
            if html.status_code == 200:
                soup = BeautifulSoup(html.text, 'lxml')
                src = soup.find(class_='picbox').img
                if src == None:
                    continue
                else:
                    src = src['src']
                    if not "http://www.zbjuran.com" in src and 'uploads' in src:
                        desrc = 'http://www.zbjuran.com' + src
                        print("正在下載%s的第%s張照片" % (url[0], i))
                        urllib.request.urlretrieve(desrc, path + '/' + url[0] + '_%s.jpg' % i)
                    else:
                        desrc = src
                        print("正在下載%s的第%s張照片" % (url[0], i))
                        urllib.request.urlretrieve(desrc, path + '/' + url[0] + '_%s.jpg' % i)
            else:
                continue


if __name__ == "__main__":
    spider = Spider()
    urls = spider.get_image_urls()
    print(urls)
    d1 = datetime.datetime.now()
    p = Pool(20)
    j = 0

    for i in urls:
        path = spider.createDirectory(i[0] + str(j))
        p.apply_async(spider.down_image, args=(i, path))
        j += 1
    p.close()
    p.join()
    d2 = datetime.datetime.now()
    print(d2 - d1)

python爬蟲學習多程序下載圖片

import requests import urllib.request from bs4 import BeautifulSoup import os, re import datetime from multiprocessing import Pool tota

python爬蟲學習筆記三：圖片爬取

圖片爬取的程式碼 r.content 檔案的二進位制格式 Python引入了with語句來自動幫我們呼叫close()方法： open(path, ‘-模式-‘,encoding=’UTF-8’) w：以寫方式開啟， a：以追加模式開啟 (從 EOF 開始, 必要時建

python爬蟲-簡單使用xpath下載圖片

首先 1.為方便以下進行谷歌瀏覽器裡要安裝xpath指令碼 2.下載一個lmxl 命令：pip install lxml 3. 以下三張圖是一個，當時爬的《糗事百科》裡的圖片　　值的注意

python爬蟲：從頁面下載圖片以及編譯錯誤解決。

#!/usr/bin/python import re import urllib def getHtml(url):page = urllib.urlopen(url)html = page.read()return html def getImage(html):reg

python爬蟲-使用多程序爬取美圖-人工智慧語言（高效爬蟲）

import os from multiprocessing.pool import Pool from urllib.parse import urlencode from hashlib import md5 import requests def loaDpage(fullurl):

Python爬蟲之多線程下載豆瓣Top250電影圖片

process current ocs code roc 輸出 wait div 允許爬蟲項目介紹 ??本次爬蟲項目將爬取豆瓣Top250電影的圖片，其網址為：https://movie.douban.com/top250，具體頁面如下圖所示： ??本次爬蟲項目將分別

Python爬蟲學習_多程序爬取58同城

思路：有多個頻道（類別），每個頻道下有多個商品連結，每個商品都有詳情頁。先將頻道連結中的多個商品連結爬下來放入資料庫中，再從資料庫中取出來每一個商品詳情頁連結，進行詳情頁中的資訊爬取首先是channel_extact.py,爬取不同頻道的連結 from bs4 impo

python爬蟲學習筆記--python多程序

使用multiprocessing模組建立多程序：import os from multiprocessing import Process #子程序要執行的程式碼 def run_proc(name): print('Child process %s (%s)Ru

【Python爬蟲學習筆記10】多線程中的生產者消費者模式

其中因此問題共享 and 生產者消費者模式共享問題由於接下來在多線程編程中，最經典的模式是生產者消費者模式。其中，生產者是專門用來生產數據的線程，它把數據存放在一個中間變量中；而消費者則從這個中間變量取出數據進行消費。由於生產者和消費者共享中間變量，這些變量大

Python爬蟲之多執行緒，多程序

前言我們之前寫的爬蟲都是單個執行緒的？這怎麼夠？一旦一個地方卡到不動了，那不就永遠等待下去了？為此我們可以使用多執行緒或者多程序來處理。首先宣告一點！多執行緒和多程序是不一樣的！一個是 thread 庫，一個是 multiprocessing 庫。而多執行緒 thread 在 Pytho

Python學習多程序併發寫入同一檔案

最近學習了Python的多程序，想到我的高德API爬蟲那個爬取讀寫速度我就心累，實在是慢，看到多程序可以充分利用CPU核數我就開始完善我的程式碼，不過過程是艱辛的，在此之中出現了很多問題，其中最大的問題是爬取的資料是正確的，但是讀寫到Excel中卻開啟是空，想了半天也沒解決，腦子笨沒辦法，不過我

python爬蟲學習--pixiv爬蟲(2)--國際排行榜的圖片爬取

之前用面向過程的形式寫了一下pixiv爬蟲的登入... 覺得還是面向物件好一些... 那就先把登入過程重寫一下... class Pixiv_Spider: def __init__(self): self.p_id = '' s

python爬蟲之多執行緒、多程序+程式碼示例

#python爬蟲之多執行緒、多程序 >使用多程序、多執行緒編寫爬蟲的程式碼能有效的提高爬蟲爬取目標網站的效率。 ## 一、什麼是程序和執行緒引用[廖雪峰的官方網站](https://www.liaoxuefeng.com/wiki/1016959663602400/1017627212385376)

python 爬蟲學習

nal col spl split use oot quest except htm 爬蟲，筆記應該怎麽寫呢？標準樣式這就是一個標準的樣式，r=requests.request(get,params,等參數)，參數有的是headers,是user_agent，是用

Python 爬蟲 Vimeo視頻下載鏈接

color ref conn requested action def blog .com argv python vimeo_d.py https://vimeo.com/228013581 在https://vimeo.com/上看到稀罕的視頻按照上面加上視頻的

python爬蟲學習之路-遇錯筆記-1

sig packages ror caused 技術 bsp img exception mage 當在編寫爬蟲時同時開啟了Fidder解析工具時，訪問目標站點會遇到以下錯誤： File "C:\Users\litao\AppData\Local\Programs\P

python爬蟲學習過程:

python爬蟲 spider 學習路線1.掌握python的基本語法知識2.學會如何抓取HTML頁面: HTTP請求的處理:urlib、urlib2 及requests(reqests對urllib和urllib2進行了封裝，功能相當於二者的和) 處理後的請求可以模擬瀏覽器發送的請求，獲取瀏覽器的響應3.

Python爬蟲學習（一）

code time response utf path urllib quest ext .com Python訪問網頁主要使用包urllib 打開網頁使用 urllib.request.urlopen(url, data=None, [timeout, ]*, cafi

python爬蟲學習第一章

neu ext 完成通信關鍵詞更新 ide address idt html,body,div,span,applet,object,iframe,h1,h2,h3,h4,h5,h6,p,blockquote,pre,a,abbr,acronym,address,b

python爬蟲學習第五章正則

多行匹配 href out 地址常見 apt 分別是 all arch html,body,div,span,applet,object,iframe,h1,h2,h3,h4,h5,h6,p,blockquote,pre,a,abbr,acronym,address,b

python爬蟲學習多程序下載圖片

相關推薦