python爬取unsplash桌布

阿新 • • 發佈：2019-01-08

感覺還不錯，就試著爬一下，雖然並沒有什麼意義，因為桌布有一張就好了，沒必要爬好多。

分析頁面：

頁面中有search這個視窗，搜尋一次發現url的格式，這樣就可以構造任何想下載型別的桌布了。

審查元素髮現每張照片都有自己獨特的id

而且下載連結格式為

https://unsplash.com/photos/'+id+'/download

就開始用正則表示式來提取圖片id，用固定格式來下載。

但是在使用過程中發現這樣只能搜尋到10個圖片id，也就是隻能下載10張圖片，這樣爬蟲顯得就毫無意義了。

為什麼搜尋結果那麼多，然而只能正則找到10個圖片呢？

因為這個頁面使用了動態載入，在使用者下拉到一定位置觸發js的一個事件，來獲取下面照片的資訊。

在控制檯可以看到下拉的時候傳送的資料：

url解碼看看。

發現也是具有固定格式的，而且每一頁包含20張圖片，page=x ，這個x是遞增的。

進入url發現這裡面同樣有圖片id：

這樣就可以每次請求這個url，通過變換page=來得到每頁的圖片id，再通過下載url進行下載。

寫程式碼。

import requests
import re,os
import time,random
def tupian(leixing):
    page=1                 #初始page=1
    i=1                    #記錄圖片個數
    while True:           #爬到地老天荒
        url = 'https://unsplash.com/napi/search/photos?query='+leixing+'&xp=&per_page=20&page='+str(page)
        r = requests.get(url)        #獲取網頁程式碼
        r.headers={
    'Pragma' : 'no-cache',
    'Cache-Control' : 'no-cache',
    'Upgrade-Insecure-Requests' : '1',
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.170 Safari/537.36',
    'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Accept-Language' : 'zh-CN,zh;q=0.9',
    'Connection' : 'close',
}              #設定requests的一些特徵，防止反爬蟲機制
        #print(r.text)
        key = '\"download\":\"https://unsplash.com/photos/(.*?)/download\"'  #下載圖片的固定url
        c = re.findall(key,r.text, re.S)        #提取圖片id
        # print(c)
        for id in c:                
            time.sleep(random.uniform(0,1))                #為了儘量友好，設定超時時間
            if i%10==0:                                    #也是為了友好。
                time.sleep(10)
            try:
                fp=open('E:\\圖片\\'+leixing+"\\"+id+'.jpg',"wb")               #開啟檔案
            except:
                os.makedirs('E:\\圖片\\' + leixing + "\\")            #沒有此資料夾的話，新建資料夾
            print("正在下載第{}張圖片".format(i))
            d = requests.get('https://unsplash.com/photos/'+id+'/download')        #獲取圖片資料
            try:
                fp.write(d.content)         #將資料寫入檔案
                fp.close()                  
                print("完成！")
            except:
                print("無法連線！")
                continue
            page = page + 1             #page數量變換達到重複爬取的目的
            i = i + 1                   #爬取數量計數
leixing=input("輸入你想要的圖片型別：") #輸入圖片型別
tupian(leixing)

成果：

由於硬碟數量有限，就爬了一點。

希望大家共同交流，不當之處還請指出，謝謝！

python爬取unsplash桌布

感覺還不錯，就試著爬一下，雖然並沒有什麼意義，因為桌布有一張就好了，沒必要爬好多。分析頁面：頁面中有search這個視窗，搜尋一次發現url的格式，這樣就可以構造任何想下載型別的桌布了。審查元素髮現每張照片都有自己獨特的id而且下載連結格式為https://unsplash.

用python爬蟲爬取網頁桌布圖片（彼岸桌面網唯美圖片）

今天想給我的電腦裡面多加點桌布，但是嫌棄一個個儲存太慢，於是想著寫個爬蟲直接批量爬取，因為爬蟲只是很久之前學過一些，很多基礎語句都不記得了，於是直接在網上找了個有基礎操作語句的爬蟲程式碼，在這上面進行修改以適應我的要求和爬取的網頁需求注意：這次爬取的

Python爬蟲實戰| Python爬取英雄聯盟高清桌布

先看一下最終爬取的效果，每個英雄的桌布都被爬取下來了： “黑暗之女安妮”的12張桌布：高清大圖：下面開始正式教學！版本：Python 3.5 工具：Jupyter notebook實現各個環節，最終整合成LOL_s

python爬取網易雲音樂歌單音樂

string attrs default textarea bsp color read contents dom 在網易雲音樂中第一頁歌單的url：http://music.163.com/#/discover/playlist/ 依次第二頁：http://music.1

python 爬取qidian某一頁全部小說

decode return data- dib read etc break beautiful range 1 import re 2 import urllib.request 3 from bs4 import BeautifulSou

Python爬取今日頭條段子

找到 eat 修改是什麽一次時間地址 style 用戶名剛入門Python爬蟲，試了下爬取今日頭條官網中的段子，網址為https://www.toutiao.com/ch/essay_joke/源碼比較簡陋，如下： 1 import requests 2 i

利用python爬取龍虎榜數據及後續分析

登錄 one 可能股市 .com 爬蟲但我由於相關 ##之前已經有很多人寫過相關內容，但我之前並未閱讀過，這個爬蟲也是按照自己的思路寫的，可能比較醜陋，請見諒！本人作為Python爬蟲新手和股市韭菜，由於時間原因每晚沒辦法一個個翻龍虎榜數據，所以希望借助爬蟲篩選出

python爬取豆瓣小組700+話題加回復啦啦啦python open file with a variable name

技術分享 ash 寫入 blog ima ron tar 回復 -128 需求：爬取豆瓣小組所有話題（話題title，內容，作者，發布時間），及回復（最佳回復，普通回復，回復_回復，翻頁回復，0回復）解決：1. 先爬取小組下，所有的主題鏈接，通過定位nextp

Node.js/Python爬取網上漫畫

版本中間 kit ont mic 這一圖片加載同步改變　　某個周日晚上偶然發現了《火星異種》這部漫畫，便在網上在線看了起來。在看的過程中圖片加載很慢，而且有時候還不小心點到廣告，大大延緩了我看的進度。後來想到能不能把先把漫畫全部抓取到本地再去看。　　經過一段時間

python爬取百度搜索圖片

知乎需要 with 異常 mage 不足 request height adr 在之前通過爬取貼吧圖片有了一點經驗，先根據之前經驗再次爬取百度搜索界面圖片廢話不說，先上代碼 #!/usr/bin/env python # -*- coding: utf-8 -*- #

Python爬取百度貼吧數據

utf-8 支持我 family encode code word keyword 上一條時間　　本渣除了工作外，在生活上還是有些愛好，有些東西，一旦染上，就無法自拔，無法上岸，從此走上一條不歸路。花鳥魚蟲便是我堅持了數十年的愛好。　　本渣還是需要上班，才能支持我的

python爬取七星彩的開獎歷史記錄

clas 程序代碼 aip dal zip file utf mage decode 1.因為人不可能一直無休止的學習，偶爾也想做點兒別的，昨天無聊就想寫寫Python，當然我承認我上班後基本都是在學工作方面的事情，在這個崗位我也呆了三年多了，還是那句話問我什麽會不會我會給

python爬取網頁圖片

ima com col list https pytho 表達式 images 5% 在Python中使用正則表達式，一個小小的爬蟲，抓取百科詞條網頁的jpg圖片。下面就是我的代碼，作為參考： #coding=utf-8 # __author__ = ‘Hinfa‘ im

python爬取百度搜索結果ur匯總

百度搜索 sta attr amp end rom range 百度篩選寫了兩篇之後，我覺得關於爬蟲，重點還是分析過程分析些什麽呢： 1）首先明確自己要爬取的目標　　比如這次我們需要爬取的是使用百度搜索之後所有出來的url結果 2）分析手動進行的獲取目標的過程，以便

python 爬取微博信息

微博爬蟲 python cookie 新浪微博爬取的話需要設計到登錄，這裏我沒有模擬登錄，而是使用cookie進行爬取。獲取cookie：代碼：#-*-coding:utf8-*- from bs4 import BeautifulSoup import requests impor

Python爬取貓眼top100排行榜數據【含多線程】

代碼 status log col return map result port htm # -*- coding: utf-8 -*- import requests from multiprocessing import Pool from requests.e

python 爬取京東手機圖

跳過 close 高手 cnblogs port cep findall pen 得到初學urllib，高手勿噴... import re import urllib.request #函數：每一頁抓取的30張圖片 def craw(url,page): ima

Python 爬取數據入庫mysql

for filename raw adl note input 入庫 mat csv 1 # -*- enconding:etf-8 -*- 2 import pymysql 3 import os 4 import time 5 import re 6 se

python爬取煎蛋妹子圖（老司機養成之路）

chrom all with file windows import apple 妹子 lib 源碼： 1 import urllib.request 2 from bs4 import BeautifulSoup 3 import os 4 import io

python 爬取百度url

style not 域名 head dex fin compile threads www 1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # @Date : 2017-08-29 18:38:23 4

python爬取unsplash桌布

相關推薦