python爬蟲入門---第三篇：自動下載圖片

阿新 • • 發佈：2019-02-11

等待部分 app class 請您 pictures string fin from

適用的圖片網站：美桌

import requests
import re
import urllib
from bs4 import BeautifulSoup

def get_html_text(url):
    ‘‘‘
    獲取網址url的HTML代碼，以字符串形式返回html代碼

    ‘‘‘
    try:
        res = requests.get(url, timeout = 6)
        res.raise_for_status()
        res.encoding = res.apparent_encoding
        return 
 res.text
    except:
        return ‘‘
        print(‘請求異常‘)

def get_grupic_url(page_url, grupic_url_list, unique_url):
    ‘‘‘
    獲取每張頁面中每個圖冊的url鏈接，每個圖冊的url都有共同
    且有別於其他鏈接的url，我們把部分特征的字符串放在unique_url
    中，通過它我們就可以篩選出頁面中所有圖冊的url

    ‘‘‘
    page_html = get_html_text(page_url)
    #解析頁面的html代碼 

    soup = BeautifulSoup(page_html, ‘html.parser‘)
    #獲取該頁面html代碼中的所有<a>標簽
    a_tags = soup.find_all(‘a‘)
    #篩選出href屬性中含有特征字符串unique_url的<a>標簽
    for a_tag in a_tags:
        url = a_tag.get(‘href‘)
        if re.match(unique_url, url):
            #將篩選出的<a>標簽的url加入到列表中
            grupic_url_list.append(url)


 
def get_allpages_url(cover_url, pages_url_list):
    ‘‘‘通過遞歸獲取所有頁面的鏈接，
        直到該頁面不存在class = ‘next‘的<a>標簽

    ‘‘‘
    html = get_html_text(cover_url)
    soup = BeautifulSoup(html, ‘html.parser‘)
    #找到屬性class = ‘next‘的<a>標簽
    a_tags = soup.find_all(‘a‘, class_ = ‘next‘)
    #如果<a>標簽存在，就將該標簽的url加入列表
    if a_tags:
        nextpage_url = a_tags[0].get(‘href‘)
        pages_url_list.append(nextpage_url)
        #遞歸獲取下一個頁面的<a>標簽
        get_allpages_url(nextpage_url, pages_url_list)
    #當不存在屬性class = ‘next‘的<a>標簽時，說明這是最後一頁，結束遞歸
    return None

def download_each_page(grupic_url_list, file_path1, page):
    ‘‘‘
    通過調用download_each_group()函數，
    下載每一頁中的所有組圖

    ‘‘‘
    print(‘\n\n第 {0} 頁開始下載：\n‘.format(str(page)))

    gup = 1    #組數標記
    #下載該頁面中每個小相冊的所有圖片
    for grupic_url in grupic_url_list:
        file_path2 = file_path1 + ‘_{0}‘.format(str(gup))
        #獲取該頁面的h1標題
        h1_string = get_h1_string(grupic_url)
        try:
            download_each_group(grupic_url, file_path2, h1_string, gup)
            gup += 1
        except:
            print("下載異常")
            gup += 1
            continue

def download_all_page(pages_url_list, file_path, unique_url):
    ‘‘‘通過調用函數download_each_page()，
        來下載所有頁面的圖片

    ‘‘‘
    pages_num = len(pages_url_list)
    print(‘\n相冊一共有 {0} 頁，已經開始下載請您耐心等待...‘.format(str(pages_num)))

    page = 1    #頁數標記
    for page_url in pages_url_list:
        grupic_url_list = []
        get_grupic_url(page_url, grupic_url_list, unique_url)
        file_path1 = file_path + r‘\{0}‘.format(str(page))
        download_each_page(grupic_url_list, file_path1, page)
        page += 1

def download_each_group(grupic_url, file_path, h1_string, gup, n = 1):
    ‘‘‘
    進入鏈接為grupic_url的圖冊，下載我們需要的大圖片，
    並遞歸進入下一個頁面開始下載，直到圖冊的h1標題發生改變

    ‘‘‘ 
    new_file_path = file_path + ‘_{0}.jpg‘.format(str(n))
    n += 1
    html = get_html_text(grupic_url)
    soup = BeautifulSoup(html, ‘html.parser‘)
    #當該頁面的h1標題和小相冊封面的h1標題相同時開始下載
    if h1_string == soup.h1.string:
        #找到屬性class_ = ‘pic-large‘的img標簽
        img_tags = soup.find_all(‘img‘, class_ = ‘pic-large‘)
        img_tag = img_tags[0]
        #下載該img標簽屬性data-original提供的url鏈接，即為目標圖片的鏈接
        urllib.request.urlretrieve(img_tag.get(‘data-original‘), new_file_path)
        #獲取下一個頁面的鏈接
        next_url = img_tag.parent.get(‘href‘)
        print(‘第 {0} 組：{1}, 第 {2} 張下載完成啦‘.format(str(gup), h1_string, str(n-1)))
        #遞歸下載下一個頁面的目標圖片
        download_each_group(next_url, file_path, h1_string, gup, n)
    #當h1標題不同時，說明進入到了另一個小相冊，結束遞歸
    return None

def get_h1_string(url):
    ‘‘‘
    獲取網址為url網站的h1標簽內容

    ‘‘‘
    try:
        html = get_html_text(url)
        soup = BeautifulSoup(html, ‘html.parser‘)
        return soup.h1.string
    except:
        print(‘h1標題獲取異常‘)
        return ‘‘

def main():
    ‘‘‘
    主函數

    ‘‘‘
    #封面的url鏈接，也就是第一頁的url鏈接
    cover_url = ‘http://www.win4000.com/mt/huge_1.html‘
    #小相冊鏈接中有別於其他鏈接的特征字符串
    unique_url = r‘http://www.win4000.com/meinv‘
    #圖片存放的目錄
    file_path = r‘G:\pictures\huge‘

    #存放所有頁面鏈接的列表
    pages_url_list = []
    #先將封面，即第一頁加入列表
    pages_url_list.append(cover_url)

    #獲取其他頁面的鏈接
    get_allpages_url(cover_url, pages_url_list)

    #下載所有頁面中所有圖片的函數
    download_all_page(pages_url_list, file_path, unique_url)


main()

等待部分 app class 請您 pictures string fin from 適用的圖片網站：美桌 import requests import re import urllib from bs4 import BeautifulSoup def get_ht

Python 語言學習第三篇：陣列型別（列表、字典和元組）

列表和欄位都可以在原處進行修改，可以按照需求增長或縮短，並且可以包含任何型別的物件或被巢狀。列表和字典儲存的是物件的引用，而不是拷貝。一，列表列表是有序的序列，每一個列表項的順序是固定的，這使得列表可以通過指定的偏移來索引和分片。列表是可變的序列，支援在原處修改。列表項可以是任何型別，或物件，也可

ElasticSearch入門第三篇：索引

ElasticSearch是文件型資料庫，索引（Index）定義了文件的邏輯儲存和欄位型別，每個索引可以包含多個文件型別，文件型別是文件的集合，文件以索引定義的邏輯儲存模型，比如，指定分片和副本的數量，配置重新整理頻率，分配分析器等，儲存在索引中的海量文件分散式儲存在Ela

SpringBoot 2.X課程學習 | 第三篇：自動配置（Auto-configuration）

一、auto-configuration introduction 自動配置是spri

Python爬蟲入門【8】：蜂鳥網圖片爬取之三

蜂鳥網圖片--囉嗦兩句前面的教程內容量都比較大，今天寫一個相對簡單的，爬取的還是蜂鳥，依舊採用aiohttp 希望你喜歡爬取頁

Python基礎第三篇：函數

turn 說明代碼名稱維護 span 大小寫 div 邏輯一、Python函數介紹 1.函數的作用規範代碼使代碼變得邏輯性更強提高可讀性，方便管理，降低維護成本，以及降低代碼冗余函數是組織好的，可重復使用的，用來實現單一，或相關聯功能的代碼段。 2.函

第三篇：爬蟲框架 - Scrapy

工程講解爬取 turn 本體爬蟲框架 sel 傳遞使用前言 Python提供了一個比較實用的爬蟲框架 - Scrapy。在這個框架下只要定制好指定的幾個模塊，就能實現一個爬蟲。本文將講解Scrapy框架的基本體系結構，以及使用這

第三篇：python函數

名稱 bsp 一行 turn 內置提高 none def 簡單 1、python函數函數是組織好的，可重復使用的，用來實現單一，或相關聯功能的代碼段。函數能提高應用的模塊性，和代碼的重復利用率。你已經知道Python提供了許多內建函數，比如print()。但你也可

python開發（第三篇）：python基本數據類型（列表，元組，字典）

python開發 .com mage es2017 列表基本 images 數據類型切片 ##########列表：list########## 1.索引：結果：eirc 2.切片 python開發（第三篇）：python基本數據類型（列表，元組，字典）

Python開發【第三篇】：基本數據類型

name 分享圖片 alex 賦值運算 gpo 基本刪除索引常用功能 1、算數運算： 2、比較運算： 3、賦值運算： 4、邏輯運算： 5、成員運算： ---------------------------------------------------

Python開發【第三篇】：Python基本數據類型

line .com post 數據類型 fun 其他否則對象移除運算符 1、算數運算： 2、比較運算： 3、賦值運算： 4、邏輯運算： 5、成員運算：基本數據類型 1、數字 int（整型）　　在32位機器上，整數的位數為32位，取值範圍

【Python】打響2019年第三炮-Python爬蟲入門（三）

打響2019年第三炮-Python爬蟲入門今晚喝了點茶，也就是剛剛，喝茶過程中大腦中溢位一個想法，茶中有茶葉，也有茶水，在茶水入口的一瞬間我不能直接喝進去，因為直接喝進去會帶著茶葉喝進去會很難受。這可能是一句廢話。本章主要解決第一炮、第二炮遺留下來的問題，該如何

第三篇：python基礎之資料型別與變數

一.變數 1 什麼是變數之宣告變數 #變數名=變數值 age=18 gender1='male' gender2='female' 2 為什麼要有變數變數作用：“變”=>變化，“量”=>計量/儲存狀態程式的執行本質是一系列狀態的變化，變數的目的就是用來儲存狀態，變數值的變化就

快取第三篇：redis入門之下載安裝和命令列使用

今天上午整理了一下redis的入門必備資料，以備後續使用。到官網看了下穩定版到3.2,測試版到4.0了。但我下載3.2解壓發現沒有redis-server，一直無法正常用命令列啟動。就在GitHub上找了windows-x64的下載地址，才算一切正常。

linux設備驅動第三篇：寫一個簡單的字符設備驅動

提示 copy flags 驅動程序相關 clas open ugo param 在linux設備驅動第一篇：設備驅動程序簡介中簡單介紹了字符驅動，本篇簡單介紹如何寫一個簡單的字符設備驅動。本篇借鑒LDD中的源碼，實現一個與硬件設備無關的字符設備驅動，僅僅操

python之路第三篇

區別英語 utf-8 系統存在創建 tel run 變量名 python文件目錄操作 python中對文件、文件夾（文件操作函數）的操作需要涉及到os模塊和shutil模塊。得到當前工作目錄，即當前Python腳本工作的目錄路

第三篇：數據可視化 - ggplot2

strong 保存轉換成特征散點圖說明 pdf格式 ota 目的前言 R語言的強大之處在於統計和作圖。其中統計部分的內容很多很強大，因此會在以後的實例中逐步介紹；而作圖部分的套路相對來說是比較固定的，現在可以先對它做一個總體的認識。

第三篇：開發中的問題及解決方式

.text cat 彈窗 ret 如何配置中項新的顯示 1.texarea 如何保存空格、換行？答：var content1= $("#content").val(); var content =content1.replace(/\n|\r\n/g,"&

Shell第三篇：基本語法

允許主體賦值算數 export $* lar script userdel 目錄一、什麽是shell script 二、變量三、運算符四、流程控制五、函數　　一、什麽是shell script 　　將OS命令堆積到可執行文件裏，由上至下的順序執行文本裏的

Linux實戰第三篇：RHEL7.3 yum更換實戰

yum個人筆記分享（在線閱讀）：http://note.youdao.com/noteshare?id=cdae09cf51bf77a4e94a2e2865562dbbPDF版本下載http://down.51cto.com/data/2323064本文出自 “人才雞雞” 博客，請務必保留此出處http://

python爬蟲入門---第三篇：自動下載圖片

相關推薦