python爬取圖片零基礎

阿新 • • 發佈：2019-02-15

一、爬蟲環境

1.python版本：python 3
2.anaconda
3.requests模組

4. PyCharm編輯器

二、安裝環境

1.安裝anaconda

在anaconda官網https://www.anaconda.com/進行下載（如果看不懂英文可以用谷歌瀏覽器或者QQ瀏覽器開啟）

選擇下載python3.6版本（根據自己電腦系統下載32位或64位）進行安裝。

2.用anaconda安裝requests模組

以管理員身份執行anaconda（我也不知道為什麼要用管理員身份執行，好像是以為之前安裝別的東西沒用管理員執行總

是安裝出錯）

不管了，就用管理員安裝。在anaconda中輸入：conda install requests 進行安裝

由於我安裝過了就不安裝了，輸入：y 就會繼續安裝了。安裝完成可以輸入：conda list 檢視

在其中就可以找到requests，requests安裝完成。

3.安裝PyCharm編輯器

在https://www.jetbrains.com/pycharm/中進行下載並安裝。在安裝完PyCharm後一定要記得配置，如果電腦中有多個python版本一定要配置為你安裝的anaconda路徑中的python.exe,否則安裝的requests模組會匯入不了。

4.PyCharm的配置

開啟PyCharm 點File -> settings

按截圖點選進入

進入此頁面後點擊Proje:Python ->Project Interpreter在右邊選擇anaconda安裝路徑中的Python.exe, 再點選右下角OKPyCharm配置完成。

三、程式碼部分

1.requests模組的使用

用requests模組向網頁傳送get請求，在此之前先介紹一下今天要爬取的網站“http://unsplash.com

import requests #匯入requests庫
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}  #給請求指定一個請求頭來模擬chrome瀏覽器
res = requests.get('https://unsplash.com') #像目標url地址傳送get請求，返回一個response物件
print(res.text) #r.text是http response的網頁HTML

這樣就可以輸出網頁原始碼，輸出結果為

第一步完成，有沒有一絲絲成就感？

2.分析網頁原始碼

在瀏覽器中開啟http://unsplash.com網站按F12再點圖中的選擇元素（建議用谷歌瀏覽器，我發現IE瀏覽

器查詢到的元素對應原始碼和PyCharm獲取到的有一些差別）

再在網頁中點選一張圖片

點選後此元素的原始碼部分就找到了，這個圖片的網路地址就是下圖中藍色的部分

你可以對比多個圖片元素的網路地址，接下來考慮考慮怎麼用python程式碼把這些網路地址一一摘出來。

3.用正則表示式摘出圖片網路地址

寫到此處我突然發現很難受，這個網頁的原始碼和我前幾天寫的時候有一點變動我之前寫的正則表示式不

能用了，下來就說說正則表示式的用法吧，你在學習的時候再臨時分析正好加深學習。

先找幾個元素程式碼對比一下

<img itemprop="thumbnailUrl" data-test="standard-photo-grid-multi-col-img" sizes="(min-width: 1335px) 416px,(min-width: 992px) calc(calc(100vw - 72px) / 3), (min-width: 768px) calc(calc(100vw - 48px) / 2), 100vw" srcset="https://images.unsplash.com/photo-1521780372272-bb5e0f455dcf?ixlib=rb-0.3.5&ixid=eyJhcHBfaWQiOjEyMDd9&s=ca8871f351fa47ea3f969912a157b235&auto=format&fit=crop&w=100&q=60 100w,

<img itemprop="thumbnailUrl" data-test="standard-photo-grid-multi-col-img" sizes="(min-width: 1335px) 416px, (min-width: 992px) calc(calc(100vw - 72px) / 3), (min-width: 768px) calc(calc(100vw - 48px) / 2), 100vw" srcset="https://images.unsplash.com/photo-1523768817242-39ab4249a6d5?ixlib=rb-0.3.5&amp;ixid=eyJhcHBfaWQiOjEyMDd9&amp;s=14e85dfb408586029279636308bca290&amp;auto=format&amp;fit=crop&amp;w=100&amp;q=60 100w,

<img itemprop="thumbnailUrl" alt="Walt Disney Concert Hall at dusk" data-test="standard-photo-grid-multi-col-img" sizes="(min-width: 1335px) 416px, (min-width: 992px) calc(calc(100vw - 72px) / 3), (min-width: 768px) calc(calc(100vw - 48px) / 2), 100vw" srcset="https://images.unsplash.com/photo-1496277397776-ca8089ecc5b7?ixlib=rb-0.3.5&amp;ixid=eyJhcHBfaWQiOjEyMDd9&amp;s=8788c40854a2dece7b70927c31806802&amp;auto=format&amp;fit=crop&amp;w=100&amp;q=60 100w,

這些就是我們需要的部分html程式碼，怎麼用正則表示式從所有html原始碼中獲取這些片段呢

chapter_photo_list=re.findall(r'<img itemprop="thumbnailUrl".*?100w,',html)

從圖中可以看出就這一句正則表示式就可以摘出這些片段下來解釋解釋正則表示式。

上面那句正則表示式中單引號裡帶下劃線的就是我們要補充的，後面的html就對應的是上面的網頁原始碼。

這句中的 .*? 你可以理解為此處略去n個字，這句正則表示式的意思就是在html中匹配出所有以'<img itemprop=“thumbnilUrl”'開頭以 '100w' 結尾的片段。

事實上現在獲取到的片段有一部分是多餘的，我們真正需要的只有 srcset="後面的Url 也就是上圖中藍色

的連結。

下來更改正則表示式

chapter_photo_list=re.findall(r'<img itemprop="thumbnailUrl".*?srcset="(.*?)100w,',html)

看看執行結果

成功了現在只剩下圖片地址了。和之前的正則表示式比較比較有什麼不同？

中間多了 srcset="(.*?) 大家需要了解的就是（.*?）它就代表獲取 srcset=”與 100w之間的部分

有人會想為什麼不直接寫

chapter_photo_list=re.findall(r'srcset="(.*?)100w,',html)

而要寫成那樣？

因為這個網頁原始碼中不是隻有圖片Url的時候才有，如果你那樣寫會獲取到好多沒有的，所以前面那部

分必須有它起到了定位的作用。

在這裡再展示一下以上程式碼

import requests #匯入requests庫
import re #寫正則表示式要匯入的
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}  #給請求指定一個請求頭來模擬chrome瀏覽器
res = requests.get('https://unsplash.com') #像目標url地址傳送get請求，返回一個response物件
print(res.text) #r.text是http response的網頁HTML
res.encoding='utf-8' #把獲取到的原始碼格式改為utf-8，避免漢子亂碼
html=res.text

chapter_photo_list=re.findall(r'<img itemprop="thumbnailUrl".*?srcset="(.*?)100w,',html)
print(chapter_photo_list)

4.建立資料夾並切換路徑

os.mkdir('D:\BeautifulPicture')  #建立資料夾
os.chdir('D:\BeautifulPicture')   #切換路徑至上面建立的資料夾

在寫這兩句程式碼之前要先匯入os，就是在開頭寫import os 你也可以在下面的程式碼中看到。

5.下載圖片

for chapter_photo in chapter_photo_list:  #從圖片列表中迴圈取出每一個圖片網路地址
    print(chapter_photo)
    url=chapter_photo
    name=re.findall(r'photo-(.*?)-',chapter_photo)[0] #用正則表示式在網路地址中匹配出一段作為jpg檔案的命名
    print(name)
    img = requests.get(url)
    file_name = name + '.jpg'   
    print('開始儲存圖片')
    f = open(file_name, 'ab')
    f.write(img.content)
    print(file_name, '圖片儲存成功！')
    f.close()

有沒有發現這裡的正則表示式又有不同?

這裡的正則表示式後面多了一個 [0] ,這樣就是為了避免它匹配符合條件的所有，[0]就是匹配到符合要求

的第一部分，[1]就是符合要求的第二部分，以此類推就像陣列一樣。

6.完整程式碼

import requests #匯入requests庫
import re #寫正則表示式要匯入的
import os
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}  #給請求指定一個請求頭來模擬chrome瀏覽器
res = requests.get('https://unsplash.com') #像目標url地址傳送get請求，返回一個response物件
print(res.text) #r.text是http response的網頁HTML
res.encoding='utf-8' #把獲取到的原始碼格式改為utf-8，避免漢子亂碼
html=res.text

chapter_photo_list=re.findall(r'<img itemprop="thumbnailUrl".*?srcset="(.*?)100w,',html)
print(chapter_photo_list)

#os.mkdir('D:\BeautifulPicture')  #建立資料夾
os.chdir('D:\BeautifulPicture')   #切換路徑至上面建立的資料夾
for chapter_photo in chapter_photo_list:
    print(chapter_photo)
    url=chapter_photo
    name=re.findall(r'photo-(.*?)-',chapter_photo)[0]
    print(name)
    img = requests.get(url)
    file_name = name + '.jpg'
    print('開始儲存圖片')
    f = open(file_name, 'ab')
    f.write(img.content)
    print(file_name, '圖片儲存成功！')
    f.close()

應注意建立資料夾時應注意是否存在此資料夾，如果此資料夾存在應註釋掉對應語句或刪除資料夾或改創

建路徑。

看看執行結果

執行完你會發現只有十張圖片，這是因為這個網站是下拉式的它沒有頁數。如果感興趣可以繼續學習怎麼

用程式碼實現下拉動作，或找有頁數的圖片網下載全網圖片。謝謝觀看！

python爬取圖片零基礎

一、爬蟲環境 1.python版本：python 3 2.anaconda 3.requests模組 4. PyCharm編輯器二、安裝環境 1.安裝anaconda 在anaconda官網https://www.anaconda.

Python爬取圖片驗證碼

# -*- coding:utf-8 -*-import requestsfrom bs4 import BeautifulSoupheader = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWeb

python 爬取圖片網站圖片連結並下載收集

python進行圖片網站圖片收集，主要分成如下幾個部分：（1）進行網站html頁面分析，分析你要找到的圖片的連結，以及每個連結url是怎麼構成的，如果通過爬取頁面的html獲取這些圖片的連結（2）通過python將這些已知連結的圖片下載下來注意這行程式碼header = {"

Python 爬取圖片

# coding:utf-8 import urllib import urllib2 import re import time import threading import socket import urlparse import datetime root_doma

python爬取圖片之urlretrieve儲存本地

直接上程式碼 __author__ = 'Elvis' #-*- coding: UTF-8 -*- import urllib import re def getHtml(url): page = urllib.urlopen(url) html =

用python爬取圖片的一點小結

一、原理小結最近在學習用python的爬蟲爬取網路上的圖片，製作資料集並用於後續的一些實驗。看了很多關於python爬取圖片的介紹，並驗證了相關程式碼，先推薦幾個介紹比較好的爬蟲過程：總體上來說，爬蟲的主要思路大致可以描述為： 1. 判斷待爬取網頁中的

零基礎掌握百度地圖興趣點獲取POI爬蟲（python語言爬取）（基礎篇）

region map 基礎輸入 filter put mark page -h 實現目的：爬取昆明市範圍內的全部中學數據，包括名稱、坐標。先進入基礎篇，本篇主要講原理方面，並實現步驟分解，為python代碼編寫打基礎。因為是0基礎開始，所以講得會比較詳細。如實現目的

python爬取百度搜索圖片

知乎需要 with 異常 mage 不足 request height adr 在之前通過爬取貼吧圖片有了一點經驗，先根據之前經驗再次爬取百度搜索界面圖片廢話不說，先上代碼 #!/usr/bin/env python # -*- coding: utf-8 -*- #

[python學習] 簡單爬取圖片站點圖庫中圖片

ctu while 要去文章 ava ges file cor nal 近期老師讓學習Python與維基百科相關的知識，無聊之中用Python簡單做了個爬取“遊訊網圖庫”中的圖片，由於每次點擊下一張感覺很浪費時間又繁瑣。主要分享的是怎樣爬取HTML

python爬取網頁圖片

ima com col list https pytho 表達式 images 5% 在Python中使用正則表達式，一個小小的爬蟲，抓取百科詞條網頁的jpg圖片。下面就是我的代碼，作為參考： #coding=utf-8 # __author__ = ‘Hinfa‘ im

利用python爬取點小圖片，滿足私欲(爬蟲)

.text write ret append jpg use download div pat import requestsimport reimport os,syslinks=[]titles=[] headers = { "User-Agent": "Mozi

Python 爬取美女圖片，分目錄多級存儲

port Language resp pac rst apt itl album domain 最近有個需求：下載https://mm.meiji2.com/網站的圖片。所以簡單研究了一下爬蟲。在此整理一下結果，一為自己記錄，二給後人一些方向。爬取結果如圖：

python爬取微博圖片數據存到Mysql中遇到的各種坑python Mysql存儲圖片

字符轉義 process 程序 zha 有一個 utf-8 get ctime python3 本人長期出售超大量微博數據，並提供特定微博數據打包，Message to [email protected] 前言由於硬件等各種原因需要把大概

python爬取百度圖片代碼

python爬蟲；import json import itertools import urllib import requests import os import re import sys word=input("請輸入關鍵字：") path="./ok" if

python 把已爬取圖片鏈接用urllib下載到本地

技術分享 pytho mage com python3 tle bubuko img title image:圖片鏈接 d:\\pic\%s.jpg:保存到本地的圖片路徑 title：自己定義的一個圖片名稱 python3用的是urllib.request.url

沒有內涵段子可以刷了，利用Python爬取段友之家貼吧圖片和小視頻(含源碼)

python 興趣爬蟲職業由於最新的視頻整頓風波，內涵段子APP被迫關閉，廣大段友無家可歸，但是最近發現了一個“段友”的app，版本更新也挺快，正在號召廣大段友回家，如下圖，有興趣的可以下載看看（ps：我不是打廣告的，沒收廣告費的）同時，之前同事也發了一個貼吧的段子聚居地，客官稍等，馬

python接口自動化測試十八：使用bs4框架爬取圖片

image import 解析器批量文件夾自動化測試接口 data- IT # 爬圖片# 目標網站：http://699pic.com/sousuo-218808-13-1.htmlimport requestsfrom bs4 import BeautifulSo

利用python爬蟲爬取圖片並且制作馬賽克拼圖

python爬蟲 splay ise 做事 c-c sea mage item -a 　　想在妹子生日送妹子一張用零食（或者食物類好看的圖片）拼成的馬賽克拼圖，因此探索了一番= =。　　首先需要一個軟件來制作馬賽克拼圖，這裏使用Foto-Mosaik-Edda（網上也有在

Python網路資料爬取----網路爬蟲基礎（一）

The website is the API......(未來的資料都是通過網路來提供的，website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。 ##Requests 庫的使用，此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面；自動的

Python練習四:爬取圖片

貼吧地址 https://tieba.baidu.com/p/5272413637?red_tag=0606091703 程式如下import urllib.requestimport redef open_url(url): 　　req = urllib.request.Request(

python爬取圖片零基礎

一、爬蟲環境

1.python版本：python 3 2.anaconda 3.requests模組

4. PyCharm編輯器

二、安裝環境

1.安裝anaconda

2.用anaconda安裝requests模組

3.安裝PyCharm編輯器

4.PyCharm的配置

三、程式碼部分

相關推薦

1.python版本：python 3
2.anaconda
3.requests模組