案例學python——案例一：抓圖

阿新 • • 發佈：2018-11-17

最近專案不那麼緊張，有時間來研究一下Python,先前斷斷續續的自學了一段時間，有些淺基礎。剛好在碼雲上看到比較適合的案例，跟著案例再往前走一波。

案例一：爬蟲抓圖

開發工具：PyCharm 指令碼語言：Python 3.7.1 開發環境：Win10 爬取網站：妹子圖

# Win下直接裝的 python3
pip install bs4、pip install requests
# Linux python2 python3 共存
pip3 install bs4、pip3 install requests

pip list 檢視庫

導庫說明

# 匯入requests庫   匯入目的：負責傳送網路請求
import requests
# 匯入檔案操作庫OS  匯入目的：讀寫
import os
# bs4全名BeautifulSoup，是編寫python爬蟲常用庫之一，主要用來解析html標籤。  效能據說可能差了點，入門級湊合著用吧。
import bs4
from bs4 import BeautifulSoup
# 基礎類庫
import sys
# Python 3.x 解決中文編碼問題
import importlib
importlib.reload(sys)

先上原始碼：

#coding=utf-8
#!/usr/bin/python
# 匯入requests庫
import requests
# 匯入檔案操作庫
import os
import bs4
from bs4 import BeautifulSoup
import sys
import importlib
importlib.reload(sys)


# 給請求指定一個請求頭來模擬chrome瀏覽器
global headers
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36 
'}
# 爬圖地址
mziTu = 'http://www.mzitu.com/'
# 定義儲存位置
global save_path
save_path = 'G:\BeautifulPictures'


# 建立資料夾
def createFile(file_path):
    if os.path.exists(file_path) is False:
        os.makedirs(file_path)
    # 切換路徑至上面建立的資料夾
    os.chdir(file_path)


# 下載檔案
def download(page_no, file_path):
    global headers
    res_sub = requests.get(page_no, headers=headers)
    # 解析html
    soup_sub = BeautifulSoup(res_sub.text, 'html.parser')
    # 獲取頁面的欄目地址
    all_a = soup_sub.find('div',class_='postlist').find_all('a',target='_blank')
    count = 0
    for a in all_a:
        count = count + 1
        if (count % 2) == 0:
            print("內頁第幾頁：" + str(count))
            # 提取href
            href = a.attrs['href']
            print("套圖地址：" + href)
            res_sub_1 = requests.get(href, headers=headers)
            soup_sub_1 = BeautifulSoup(res_sub_1.text, 'html.parser')
            # ------ 這裡最好使用異常處理 ------
            try:
                # 獲取套圖的最大數量
                pic_max = soup_sub_1.find('div',class_='pagenavi').find_all('span')[6].text
                print("套圖數量：" + pic_max)
                for j in range(1, int(pic_max) + 1):
                    # print("子內頁第幾頁：" + str(j))
                    # j int型別需要轉字串
                    href_sub = href + "/" + str(j)
                    print(href_sub)
                    res_sub_2 = requests.get(href_sub, headers=headers)
                    soup_sub_2 = BeautifulSoup(res_sub_2.text, "html.parser")
                    img = soup_sub_2.find('div', class_='main-image').find('img')
                    if isinstance(img, bs4.element.Tag):
                        # 提取src
                        url = img.attrs['src']
                        array = url.split('/')
                        file_name = array[len(array)-1]
                        # print(file_name)
                        # 防盜鏈加入Referer
                        headers = {'Referer': href}
                        img = requests.get(url, headers=headers)
                        # print('開始儲存圖片')
                        f = open(file_name, 'ab')
                        f.write(img.content)
                        # print(file_name, '圖片儲存成功！')
                        f.close()
            except Exception as e:
                print(e)


# 主方法
def main():
    res = requests.get(mziTu, headers=headers)
    # 使用自帶的html.parser解析
    soup = BeautifulSoup(res.text, 'html.parser')
    # 建立資料夾
    createFile(save_path)
    # 獲取首頁總頁數
    img_max = soup.find('div', class_='nav-links').find_all('a')[3].text
    # print("總頁數:"+img_max)
    for i in range(1, int(img_max) + 1):
        # 獲取每頁的URL地址
        if i == 1:
            page = mziTu
        else:
            page = mziTu + 'page/' + str(i)
        file = save_path + '\\' + str(i)
        createFile(file)
        # 下載每頁的圖片
        print("套圖頁碼：" + page)
        download(page, file)


if __name__ == '__main__':
    main()

程式碼分析：

if __name__ == '__main__':
    main()

這段程式碼啥意思呢？

if __name__ == '__main__'的意思是：當.py檔案被直接執行時，if __name__ == '__main__'之下的程式碼塊將被執行；當.py檔案以模組形式被匯入時，if __name__ == '__main__'之下的程式碼塊不被執行。 
如果沒有這段程式碼 主方法main()也就無法被直接執行，可以簡單先理解為啟動主方法的入口。

然後我們再看主方法

# 主方法
def main():
    res = requests.get(mziTu, headers=headers)        
 // 我們可以從這個物件res中獲取所有我們想要的資訊 下行res.text 就是當前頁面的html資訊 具體看對應API
    # 使用自帶的html.parser解析
    soup = BeautifulSoup(res.text, 'html.parser')      
//html字串建立BeautifulSoup物件   此處可以soup.title  soup.title.name  soup.title.string  soup.a['href'] soup.p['class'] 不嫌事多，你可以打印出來看看，具體看對應API
    # 建立資料夾
    createFile(save_path)              //建立目標資料夾，作用當然用來存爬到的資源
    # 獲取首頁總頁數
    img_max = soup.find('div', class_='nav-links').find_all('a')[3].text
    # print("總頁數:"+img_max)
    for i in range(1, int(img_max) + 1):
        # 獲取每頁的URL地址
        if i == 1:
            page = mziTu
        else:
            page = mziTu + 'page/' + str(i)
        file = save_path + '\\' + str(i)
        createFile(file)
        # 下載每頁的圖片
        print("套圖頁碼：" + page)
        download(page, file)

核心程式碼

res = requests.get(mziTu, headers=headers)
soup = BeautifulSoup(res.text, 'html.parser')以上兩段程式碼我們基本上拿到了以下html資訊的全部

# 獲取首頁總頁數
    img_max = soup.find('div', class_='nav-links').find_all('a')[3].text

 第一步：soup.find('div',class='nav-links')取到class='nav-links'的div

 第二步：.find_all('a') 在該div內取全部的<a></a>標籤 為一個數組

第三步：.find_all('a')[3] 取第四個<a></a>標籤 陣列下標從0開始

第四步：.find_all('a')[3].text 取得頁碼總數也就是 200

 for i in range(1, int(img_max) + 1):
        # 獲取每頁的URL地址
        if i == 1:
            page = mziTu
        else:
            page = mziTu + 'page/' + str(i)
        file = save_path + '\\' + str(i)
        createFile(file)
        # 下載每頁的圖片
        print("套圖頁碼：" + page)
        download(page, file)


這段理解起來很簡單

第一步：建立存放資料夾 此處save_path="G:\BeautifulPictures\num"  num=[1,200] 程式執行後，此目錄有源源不斷的圖片紛至杳來。

第二步：拼接原始檔（每一張圖片）路徑？目標是此，但此處具體到每一頁（路徑是：http://www.mzitu.com/page/num  num=[1,200]），還沒深入到每一個專題。要想具體到每一張只能繼續往下爬，此處可移步download(page,file)方法。


例如現在num=4 經過download()方法就可以具體到每一張圖片了 下面分析download()方法

# 下載檔案
def download(page_no, file_path):
    global headers
    res_sub = requests.get(page_no, headers=headers)
    # 解析html
    soup_sub = BeautifulSoup(res_sub.text, 'html.parser')
    # 獲取頁面的欄目地址
    all_a = soup_sub.find('div',class_='postlist').find_all('a',target='_blank')
    count = 0
    for a in all_a:
        count = count + 1
        if (count % 2) == 0:
            print("內頁第幾頁：" + str(count))
            # 提取href
            href = a.attrs['href']
            print("套圖地址：" + href)
            res_sub_1 = requests.get(href, headers=headers)
            soup_sub_1 = BeautifulSoup(res_sub_1.text, 'html.parser')
            # ------ 這裡最好使用異常處理 ------
            try:
                # 獲取套圖的最大數量
                pic_max = soup_sub_1.find('div',class_='pagenavi').find_all('span')[6].text
                print("套圖數量：" + pic_max)
                for j in range(1, int(pic_max) + 1):
                    # print("子內頁第幾頁：" + str(j))
                    # j int型別需要轉字串
                    href_sub = href + "/" + str(j)
                    print(href_sub)
                    res_sub_2 = requests.get(href_sub, headers=headers)
                    soup_sub_2 = BeautifulSoup(res_sub_2.text, "html.parser")
                    img = soup_sub_2.find('div', class_='main-image').find('img')
                    if isinstance(img, bs4.element.Tag):
                        # 提取src
                        url = img.attrs['src']
                        array = url.split('/')
                        file_name = array[len(array)-1]
                        # print(file_name)
                        # 防盜鏈加入Referer
                        headers = {'Referer': href}
                        img = requests.get(url, headers=headers)
                        # print('開始儲存圖片')
                        f = open(file_name, 'ab')
                        f.write(img.content)
                        # print(file_name, '圖片儲存成功！')
                        f.close()
            except Exception as e:
                print(e)

假設num=4 ,此時

page_no='http://www.mzitu.com/page/4'

經過request.get()，傳送get請求，再被BeautifulSoup解析我們就拿到了下面的html程式碼

    res_sub = requests.get(page_no, headers=headers)
    # 解析html
    soup_sub = BeautifulSoup(res_sub.text, 'html.parser')

然後我們很容易看到我們的目標檔案是,id='pins'下的所有<a></a>標籤，如下圖。此herf只具體到每一個小姐姐的第一張照片，還不能具體到小姐姐的每一張照片。沒關係，點選連結進去，再看看。

此時我們再看

再扒一層就到具體的每一張圖片的地址了，讀一波，寫一波f.write(img.content)，一波走起，儲存本地，

然後看本地的戰利品：請愛惜自己的身體

個人小小的趕腳，爬蟲抓包，找到你需要下載的每一個路徑，一步步去按標籤爬，儲存本地。貌似也挺簡單的哈。第一次跑Python程式碼，不好的地方見笑。

原始碼碼雲地址：https://gitee.com/52itstyle/Python 感興趣的一起學一波，組個隊。

案例學python——案例一：抓圖

最近專案不那麼緊張，有時間來研究一下Python,先前斷斷續續的自學了一段時間，有些淺基礎。剛好在碼雲上看到比較適合的案例，跟著案例再往前走一波。案例一：爬蟲抓圖開發工具：PyCharm 指令碼語言：Python 3.7.1&n

案例學python——案例三：豆瓣電影資訊入庫一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用

　閒扯皮昨晚給高中的妹妹微信講題，函式題，小姑娘都十二點了還迷迷糊糊。今天凌晨三點多，被連續的警報聲給驚醒了，以為上海拉了防空警報，難不成地震，空襲？難道是樓下那個車主車子被堵了，長按喇叭？開窗看看，好像都不是。好鬼畜的警報聲，家裡也沒裝報警器啊，莫不成家裡煤氣漏了？起床循聲而查，報警

Python爬蟲（入門+進階）學習筆記 1-6 瀏覽器抓包及headers設定（案例一：爬取知乎）

爬蟲的一般思路：抓取網頁、分析請求解析網頁、尋找資料儲存資料、多頁處理本節課主要講授如何通過谷歌瀏覽器開發者工具分析真實請求的方法。尋找真實請求的三個步驟分析：使用谷歌瀏覽器開發者工具分析網頁的請求測試：測試URL請求中每個引數的作用，找出控制翻頁等功能的引數重複：多次重複

爬蟲——Scrapy框架案例一：手機APP抓包

debug domain hone targe allow topic document more ebs 以爬取鬥魚直播上的信息為例： URL地址：http://capi.douyucdn.cn/api/v1/getVerticalRoom?limit=20&of

《利用python進行資料分析》讀書筆記之案例一：來自bit.ly的1.usa.gov資料

從網上下來的資料檔案，先讀取檔案中的第一行檢視是什麼資料型別 path="usagov_data.txt" open(path).readline() 結果是：從上面的資料格

python第十四課--排序及自定義函數之案例一：選擇排序

空間循環列表 pri 使用次數選擇 pre 第十四案例一：選擇排序使用選擇排序的思想實現列表數據的升序排序 lt=[45,12,56,-32,-3,44,75,-22,100] length=len(lt) # print(‘排序前：‘+str(lt)) 使用

Python學習一：序列基礎詳解

list ava author 萬裏單個使用下標不能 get 分別是作者：NiceCui 本文謝絕轉載，如需轉載需征得作者本人同意，謝謝。本文鏈接：http://www.cnblogs.com/NiceCui/p/7858473.html 郵箱：moyi

odoo10學習筆記十一：視圖綜述

當前存在 ren name屬性簡寫 ann idg 重寫 ogre 原文地址：http://www.cnblogs.com/ygj0930/p/7150983.html 一：視圖標簽等公共結構 name (必選) 用於通過名字查找標簽 model：與view相關聯的

網站爬取-案例一：貓眼電影TOP100

瀏覽器取數據 pos 代碼裏的十個 wid 頁面 image 今天有小朋友說想看一下貓眼TOP100的爬取數據，要TOP100的名單，讓我給發過去，其實很簡單，先來看下目標網站：建議大家都用谷歌瀏覽器：這是我們要抓取的內容，100個數據，很少我們看一下頁面結構

Python 案例一（計算人體體脂率）

性別 post 計算公式 clas pos per result nbsp person #計算人體體脂率 #輸入部分 #身高 personHeight = input("請輸入你的身高（m）:") personHeight = float(personHe

JQuery案例一：實現表格隔行換色

body ble () ++ doc cti seo head 姓名 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <t

使用者畫像案例一：汽車精準營銷

使用者畫像案例一：汽車精準營銷做汽車精準營銷專案已經快一年的時間了，但是說起正真的使用者畫像，又不知道該如何說起，所以我就開始從資料的處理流程一點點的來引進使用者畫像的建立。 1、資料的處理流程我們用到的技術就是用java寫mapreduce框架來實現使用者上網資料的url的識別，這裡識別用的是正則

Python爬蟲實戰：抓取並儲存百度雲資源（附程式碼）

尋找並分析百度雲的轉存api 首先你得有一個百度雲盤的賬號，然後登入，用瀏覽器（這裡用火狐瀏覽器做示範）開啟一個分享連結。F12開啟控制檯進行抓包。手動進行轉存操作：全選檔案->儲存到網盤->選擇路徑->確定。點選【確定】前建議先清空一下抓包記錄，這樣可以精確定位到轉存的api，這就是

Python基礎一：編譯器的選擇與Python保留關鍵字

eclipse外掛的安裝 Python保留關鍵字 ['False', 'None', 'True', 'and', 'as', 'assert', 'break', 'class', 'continue', 'def', 'del', 'elif', 'els

iOS Swift Charts 的使用(一)：折線圖的實現

最近專案中遇到了需要獲取網站上的資料，然後以折線圖的方式表示出來的需求。於是發現了swift下非常強大的圖表庫-# 下面是這個系列的幾篇彙總： 1、折線圖 2、柱狀圖 3、餅狀圖下面開始折線圖的實現首先，我們可以通過cocoapods 的方式，方便的

Python學習一：while迴圈

一，模擬一個帳號登陸程式，錯誤三次無法登陸並退出程式A = 1#初始化密碼password = '123456'#開始迴圈while True: mima = input("請輸入密碼")　　#密碼正確，跳出迴圈 if password == mima: print("密碼正確，歡迎

MapReduce案例一：比較天氣溫度

1.需求 2.思路 3.程式碼實現 3.1MyWeather 類程式碼：這個類主要是用來定義hadoop的配置，在執行計算程式時所需載入的一些類。 package com.hadoop.mr.weather; import java.io.

資料探勘案例一：竊漏電使用者的識別

最近在準備數學建模，其中的很多問題涉及了資料的處理挖掘，同時，機器學習和資料探勘也是我以後想從事的方向，因此我花時間閱讀了《matlab資料探勘分析與實戰》，下面是書中的第一個實戰主題。資料 1、電路負荷資訊包括電路上的各項電流、電

Python 基礎一：基本語法：字符串---數字----布爾

定義 font 區別 not 多行 word eba als 字符串拼接數字類型：int（整型）　　定義：　　　　　　查找數據類型：type 　　>>> a= 2**64 　　>>>

Python 基礎一：基本語法：字串---數字----布林格式化輸出

現有一練習需求，問使用者的姓名、年齡、工作、愛好，然後列印成以下格式 ------------ info of Alex Li ----------- Name : Alex Li Age : 22 job : Teacher Hobbie: girl ------------- end ---

案例學python——案例一：抓圖

程式碼分析：

相關推薦