用python爬取圖片的一點小結

阿新 • • 發佈：2019-02-19

一、原理小結

最近在學習用python的爬蟲爬取網路上的圖片，製作資料集並用於後續的一些實驗。看了很多關於python爬取圖片的介紹，並驗證了相關程式碼，先推薦幾個介紹比較好的爬蟲過程：

總體上來說，爬蟲的主要思路大致可以描述為：

1. 判斷待爬取網頁中的圖片是靜態還是動態，並利用開發者選項F12查詢圖片的源

2. python中匯入相關模組，讀取解析頁面檔案

3. 分析所有圖片的位置特點，並用python進行查詢

4. 設定下載路徑，對找到的影象進行批量下載

其中最為關鍵的還是第1步，即對頁面的分析，找到相關的影象位置。

二、動態圖片的爬取

動態圖片是指像百度圖片搜尋，搜狗搜圖等搜尋引擎的搜尋結果，這類圖片的最大特點是，每次只加載一批圖片，每向下拉都會繼續載入新的影象，關於這類圖片的爬取可以參考[3]。這裡

[3]給出一個可以直接執行的程式碼：

# 匯入相關的庫
import requests
import json
import urllib
import os

# 爬取圖片的儲存路徑
output_dir = "./images/"


# 爬取搜狗搜圖的函式
def getSogouImag(category, length, path):
    '''
    引數category：指要爬取圖片的型別，字串格式，如：'桌布'
    引數length：指要爬取多少張，整型
    引數path：儲存路徑
    '''
    n = length
    cate = category
    #http://pic.sogou.com/pics/channel/getAllRecomPicByTag.jsp?category=%E7%BE%8E%E5%A5%B3&tag=%E5%85%A8%E9%83%A8&start=0&len=15
    imgs = requests.get('http://pic.sogou.com/pics/channel/getAllRecomPicByTag.jsp?category='+cate+'&tag=%E5%85%A8%E9%83%A8&start=0&len='+str(n)+'&width=1536&height=864')
    jd = json.loads(imgs.text)
    jd = jd['all_items']
    imgs_url = []
    for j in jd:
        imgs_url.append(j['pic_url'])
    m = 0
    for img_url in imgs_url:
            print('***** '+str(m)+'.jpg *****'+'   Downloading...')
            urllib.request.urlretrieve(img_url, path+str(m)+'.jpg')
            m = m + 1
    print('Download complete!')

# 檢查是否存在路徑，若不存在，則建立
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# 爬取圖片
getSogouImag('桌布', 1000, output_dir)

修改的話可以修改getSogouImag中的'桌布'，將其改為其他型別即可爬取相應的圖片。

爬取的效果圖為：

三、靜態圖片的爬取

靜態圖片是指類似網頁瀏覽圖片那樣，每個頁面僅有一張或者幾張圖片，然後通過點選下一頁來獲取下一個頁面中的圖片。這類圖片的爬取可以參考[2]。這裡[2]給出一個可以直接執行的程式碼：

# 匯入相關的庫
import requests
from bs4 import BeautifulSoup
import os

# 待爬取的網址
all_url = 'http://www.mzitu.com'


# http請求頭，防止反爬蟲
Hostreferer = {
    'User-Agent':'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
    'Referer':'http://www.mzitu.com'
               }
# 此請求頭破解盜鏈
Picreferer = {
    'User-Agent':'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
    'Referer':'http://i.meizitu.net'
}

# 解析頁面
start_html = requests.get(all_url,headers = Hostreferer)

# 爬取圖片的儲存地址
path = 'D:/mzitu/'

#找尋最大頁數
soup = BeautifulSoup(start_html.text,"html.parser")
page = soup.find_all('a',class_='page-numbers')
max_page = page[-2].text


same_url = 'http://www.mzitu.com/page/'
# 逐個爬取套圖
for n in range(1,int(max_page)+1):
    ul = same_url+str(n)
    # 解析頁面
    start_html = requests.get(ul, headers = Hostreferer)
    soup = BeautifulSoup(start_html.text,"html.parser")
    # 找到圖片所在的位置
    all_a = soup.find('div',class_='postlist').find_all('a',target='_blank')
    for a in all_a:
        title = a.get_text()    #提取文字
        if(title != ''):
            print("準備扒取："+title)

            # win不能建立帶？的目錄
            if(os.path.exists(path+title.strip().replace('?',''))):
                    #print('目錄已存在')
                    flag=1
            else:
                os.makedirs(path+title.strip().replace('?',''))
                flag=0
            os.chdir(path + title.strip().replace('?',''))
            
            # 找到href屬性資訊
            href = a['href']
            html = requests.get(href,headers = Hostreferer)
            mess = BeautifulSoup(html.text,"html.parser")
            pic_max = mess.find_all('span')
            pic_max = pic_max[10].text          #最大頁數
            if(flag == 1 and len(os.listdir(path+title.strip().replace('?',''))) >= int(pic_max)):
                print('已經儲存完畢，跳過')
                continue

            # 爬取套圖中每一頁的圖片
            for num in range(1,int(pic_max)+1):
                pic = href+'/'+str(num)
                html = requests.get(pic,headers = Hostreferer)
                mess = BeautifulSoup(html.text,"html.parser")
                pic_url = mess.find('img',alt = title)
                print(pic_url['src'])
                #exit(0)
                html = requests.get(pic_url['src'],headers = Picreferer)
                file_name = pic_url['src'].split(r'/')[-1]
                
                # 儲存結果
                f = open(file_name,'wb')
                f.write(html.content)
                f.close()
            print('完成')
    print('第',n,'頁完成')

該程式碼可直接執行，爬取的最終結果就不再展示。

用python爬取圖片的一點小結

一、原理小結最近在學習用python的爬蟲爬取網路上的圖片，製作資料集並用於後續的一些實驗。看了很多關於python爬取圖片的介紹，並驗證了相關程式碼，先推薦幾個介紹比較好的爬蟲過程：總體上來說，爬蟲的主要思路大致可以描述為： 1. 判斷待爬取網頁中的

用python爬取股票資料的一點小結

一、背景網上對於爬取股票資料有相對完善的教程。不過大部分教程都是隻能夠爬取一段時間的股票資料，針對某一隻股票的歷史資料爬取，目前還沒有看到比較好的教程。下面對近期學的東西進行一點點小結。二、股票資料爬取網站網上更多推薦的是東方財富的股票資料，連結為：http://quote.eas

用python爬取美女圖片

import urllib.request import os for i in range(2000, 2400): if not os.path.exists(‘tupian/’ + str(i)): os.makedirs(‘tupian/’ + str(i)) for j in

用Python爬取微博資料生成詞雲圖片

很早之前寫過一篇怎麼利用微博資料製作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的資料，現在重新整理了一下，任何的微博資料都可以製作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默默吃狗糧還是主動出擊告別單身汪加入散狗糧的行列就看你啦，七夕送什麼才有心意，程式猿可以試試用

用python爬取知乎中的圖片

首先，我們檢視一下知乎的robots協議。 User-agent: * Disallow: / 知乎是不允許爬取其根目錄的。但是，我們只是用於實驗，而且訪問頻率和正常訪問差距不大，所以可以爬取。先明確目的：對手動輸入的網址進行解析把爬取到的圖片儲存到指定目

用python爬取鬥圖啦圖片

一、程式碼部分 # -*- coding:utf-8 -*- '''1、python版本 python3.6 2、IDE PyCharm 2017.3 ''' import requests imp

用python 爬取網頁圖片

import re import string import sys import os import urllib url="http://tieba.baidu.com/p/2521298181"#這個是某貼吧地址 imgcontent=urllib.urlopen(

我用Python爬取網易雲音樂上的Hip-hop歌單，分析rapper如何押韻

line gone 謠言大致 -i 態度大眾其中當前緣起《中國有嘻哈》這個節目在這個夏天吸引了無數的目光，也讓嘻哈走進了大眾的視野。作為我今年看的唯一一個綜藝節目，它對我的影響也蠻大。這個夏天，我基本都在杭州度過，在上下班的taxi上，我幾乎都在刷這個節目，最後

用python爬取微博數據並生成詞雲

font 意思 extra 很多返回 json 自己技術分享 pre 很早之前寫過一篇怎麽利用微博數據制作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的數據，現在重新整理了一下，任何的微博數據都可以制作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默

用python爬取i春秋的課程

out clas sse dir quest index 影響 png 繼續看課中內容是用get請求進行爬取課程，自己實踐的時候發現已經被改成post請求了，下面開始打開課程頁面我用的火狐，然後就是F12，點擊網絡，可能會有很多包，但不影響，點擊刪除就行，然後點擊第二

我用 Python 爬取微信好友，最後發現一個大秘密

代碼我們同學 strong 分享簽名 ast ron tps 前言你身處的環境是什麽樣，你就會成為什麽樣的人。現在人們日常生活基本上離不開微信，但微信不單單是一個即時通訊軟件，微信更像是虛擬的現實世界。你所處的朋友圈是怎麽樣，慢慢你的思想也會變的怎麽樣。最近在學習

怎麽用Python爬取抖音小視頻? 資深程序員都這樣爬取的(附源碼)

aid option rip size with open url var mark open 簡介抖音，是一款可以拍短視頻的音樂創意短視頻社交軟件，該軟件於2016年9月上線，是一個專註年輕人的15秒音樂短視頻社區。用戶可以通過這款軟件選擇歌曲，拍攝15秒的音樂短視頻

分手後，小夥怒用Python爬取上萬空姐照片，贏取校花選舉大賽！

代碼美女圖片 pst caption alt .... 不出 ima bee 首先展示下Python爬取到的成果：我做什麽都要爭第一，這次的校花投票選舉大賽也不例外，雖然我是個男的......但是我看到了前女友竟然已經有三百多票排到第三名了，我怎麽能眼睜

誰當年還沒看過幾本小說！我用Python爬取全站的的小說！

nec 打印 b數技術分享 mon 結果鏈接 ons ide 然後再將請求發送出去，定義變量response，用read（）方法觀察，註意將符號解碼成utf-8的形式，省的亂碼：打印一下看結果：看到這麽

項目實戰！我用Python爬取了14年所有的福彩3D信息

下載器 rap 寫入excel url req 理論 ola text port 前兩天，在網上看到一個有意思的問題：×××靠譜麽？為什麽還有那麽多的人相信×××？暫且不說，×××是否靠譜？×××也分人而異，江湖上騙術很多，有些甚至會誤以為×××的準確度可以很高，這些操盤

微信PK10平臺開發與用python爬取微信公眾號文章

網址谷歌瀏覽器 pytho google http 開發微信安裝python rom 本文通過微信提供微信PK10平臺開發[q-21528-76294] 網址diguaym.com 的公眾號文章調用接口，實現爬取公眾號文章的功能。註意事項 1.需要安裝python s

用python爬取拉勾網招聘資訊並以CSV檔案儲存

爬取拉勾網招聘資訊 1、在網頁原始碼中搜索資訊，並沒有搜到，判斷網頁資訊使用Ajax來實現的 2、檢視網頁中所需的資料資訊，返回的是JSON資料； 3、條件為北京+資料分析師的公司一共40087家，而實際拉勾網展示的資料只有 15條/頁 * 30頁 = 450條，所以需要判斷

下午不知道吃什麼？用Python爬取美團外賣評論幫你選餐！

一、介紹朋友暑假實踐需要美團外賣APP評論這一份資料，一開始我想，這不就抓取網頁原始碼再從中提取資料就可以了嗎，結果發現事實並非如此，情況和之前崔大講過的分析Ajax來抓取今日頭條街拍美圖類似，都是通過非同步載入的方式傳輸資料，不同的是這次的是通過JS傳輸，其他的基本思路基本一致，希望那些資料

用python爬取某個詞條的原始碼

簡單例子：在百度中輸入關鍵詞，並爬取該網頁的原始碼 #-*- coding:utf-8-*- import urllib #負責url編碼處理 import urllib2 url = "http://www.baidu.com/s" word = {"wd":"冼焯庭"}

用Python爬取手機APP

本文轉自：https://mp.weixin.qq.com/s?__biz=MzAxMjUyNDQ5OA==&mid=2653558162&idx=1&sn=73ae2ee5d2453773bceec078e39ca0ed&chksm=806e3b2fb71

用python爬取圖片的一點小結

一、原理小結

二、動態圖片的爬取

三、靜態圖片的爬取

相關推薦