爬蟲練習一：爬取睿奢圖片

阿新 • • 發佈：2018-12-20

爬取網站：睿奢-套裝合集-私房定製

目標：爬取並儲存該網站分類下每個主題的所有圖片

python版本：python 3.6

使用庫：urllib，Beautifulsoup，os，random，re，time

對網站進行訪問檢視

首先需要通過瀏覽器對目標網站進行訪問，瞭解該網站的頁面跳轉邏輯。

要獲得想要爬取的圖片，有以下兩個步驟：

1. 通過連結開啟網頁，不需要登陸就可以看到該分類下所有主題的圖片。

2. 隨便點選一個主題，比如“告白氣球”，即跳轉入對應的“告白氣球”主題詳情頁面，這個頁面一次性展示了“告白氣球”主題下所有的圖片。每個詳情頁面下的所有照片就是本次爬取目標。

編寫程式碼

1. 通過睿奢-套裝合集-私房定製總攬頁面，獲得每個圖片主題對應的名稱和圖片詳情頁url

1）對該總攬頁面進行元素檢查，發現主題的名稱和詳情頁url直接在原始碼中明文展示，並沒有用上非同步載入或是使用介面傳輸資料等方式

因此，直接獲取網站元素後進行解析即可提取想要的資料。

2）該總攬頁面可以進行翻頁，總共有5頁。對比翻頁前後頁面的url發現，只需要對url最後一個數據做替換即可得到翻頁後的url

第一頁：http://www.rayshen.com/plus/list.php?tid=47&TotalResult=90&PageNo=1

第二頁：http://www.rayshen.com/plus/list.php?tid=47&TotalResult=90&PageNo=2

3）實現

orig_url = 'http://rayshen.com/plus/list.php?tid=47&TotalResult=90&PageNo='
# 實現翻頁，page_url是每次翻頁後頁面的url
for n in range(1, 6, 1):
    page_url = orig_url + str(n)

def get_girl_url(page_url):

    headers = {'User_Agent 
': get_userAgent()}
    # 使用隨機User-Agent，通過urllib獲取該網頁的元素
    url = urllib.request.Request(page_url, headers=headers)
    page = urllib.request.urlopen(url).read()
    # 使用Beautifulsoup進行解析
    soup = BeautifulSoup(page, 'html.parser')
    
    # url_info包含每個主題對應的圖片詳情頁url
    url_info = soup.find_all('a', class_="img js-anchor etag noul")
    # girl_info包含每個主題對應的名稱
    girl_info = soup.find_all('img', class_="etag js-img bdc4 bds0 bdwa")
    return url_info, girl_info

2. 通過每個主題的圖片詳情頁url獲得該主題下使用圖片，並儲存至對應資料夾

1）從總攬頁面獲取的每個主題詳情頁的url地址，不能直接進行訪問。需要在url前加上'http://rayshen.com'後才可以正常訪問

2）對詳情頁進行元素檢查，所有圖片的對應url都在頁面原始碼中明文儲存。處理方式同總攬頁，直接從原始碼進行提取

3）詳情頁獲得的每張圖片的url，也不完全。需要在url前加上'http://rayshen.com'後才可以正常訪問

4）實現

def get_each_girl(url_info, girl_info, path):
    for i in range(len(url_info)):
        # 當前主題對應詳情頁url
        info_url = 'http://rayshen.com' + str(url_info[i]['href'])
        # 當前主題對應名稱
        girl_name = girl_info[i]['alt']

        # 設定儲存路徑，路徑為本地指定資料夾。單個主題的所有圖片儲存在一個子資料夾內
        download_path = path+str(girl_name).replace(' ','')+'/'
        if not os.path.exists(download_path):
            os.makedirs(download_path)
    
        page = urllib.request.urlopen(info_url).read()
        # 暫停4s
        time.sleep(4)
        soup = BeautifulSoup(page, 'html.parser')
        # 得到每張照片的url
        photo_url = soup.find_all('img')
        
        i = 0
        for each in photo_url:
            try:
                # 修正為可訪問的url，並使用urllib儲存至本地
                img_url = 'http://rayshen.com' + re.findall('src="(\S+)"', str(each))[0]
                urllib.request.urlretrieve(img_url, download_path+str(i)+'.jpg')
                i += 1
                print(girl_name, '第', i, '張 done')
            except:
                print('passed')

path = '/Users/asdfgh/Desktop/ruishe/'

3. 全部程式碼

import urllib.request, urllib.parse, urllib.error
from bs4 import BeautifulSoup
import random
import re
import os
import time

# 訪問網頁時隨機選取一個User-Agent
def get_userAgent():
    agent = ['Mozilla/5.0(Macintosh;U;IntelMacOSX10_6_8;en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50',
             'Opera/9.80(Macintosh;IntelMacOSX10.6.8;U;en)Presto/2.8.131Version/11.11',
             'Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;360SE)',
             'Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50',
             'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; Tablet PC 2.0; .NET4.0E)',
             'Mozilla/5.0 (Windows; U; Windows NT 6.1; ) AppleWebKit/534.12 (KHTML, like Gecko) Maxthon/3.0 Safari/534.12',
             'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36']
    return agent[random.randint(0, 5)]

def get_girl_url(page_url):

    headers = {'User_Agent': get_userAgent()}
    # 使用隨機User-Agent，通過urllib獲取該網頁的元素
    url = urllib.request.Request(page_url, headers=headers)
    page = urllib.request.urlopen(url).read()
    # 使用Beautifulsoup進行解析
    soup = BeautifulSoup(page, 'html.parser')
    
    # url_info包含每個主題對應的圖片詳情頁url
    url_info = soup.find_all('a', class_="img js-anchor etag noul")
    # girl_info包含每個主題對應的名稱
    girl_info = soup.find_all('img', class_="etag js-img bdc4 bds0 bdwa")
    return url_info, girl_info

def get_each_girl(url_info, girl_info, path):
    for i in range(len(url_info)):
        info_url = 'http://rayshen.com' + str(url_info[i]['href'])
        girl_name = girl_info[i]['alt']
        # 儲存路徑
        download_path = path+str(girl_name).replace(' ','')+'/'
        if not os.path.exists(download_path):
            os.makedirs(download_path)
    
        page = urllib.request.urlopen(info_url).read()
        # 暫停4s
        time.sleep(4)
        soup = BeautifulSoup(page, 'html.parser')
        photo_url = soup.find_all('img')
        
        i = 0
        for each in photo_url:

            try:
                img_url = 'http://rayshen.com' + re.findall('src="(\S+)"', str(each))[0]
                urllib.request.urlretrieve(img_url, download_path+str(i)+'.jpg')
                i += 1
                print(girl_name, '第', i, '張 done')
            except:
                print('passed')

path = '/Users/asdfgh/Desktop/ruishe/'
orig_url = 'http://rayshen.com/plus/list.php?tid=47&TotalResult=90&PageNo='

for n in range(1, 6, 1):
    page_url = orig_url + str(n)
    url_info, girl_info = get_girl_url(page_url)
    get_each_girl(url_info, girl_info, path)

實現效果

執行程式碼後，成功爬下網站該分類下所以主題的圖片，並儲存在本地資料夾中。

總結

該網站的結構簡單，也沒有看到使用什麼反爬手段。所以簡單使用urllib庫進行網頁訪問和beautifulsoup進行解析就可以獲得想要爬取的資料。

這次練習的收益在於：

1）將學習到的爬蟲抓取思想運用在實際抓取中，在運用中進行理解

比如：編寫一個爬蟲的流程/方法論，可以用哪些方法來找到應該從哪裡獲取我們想要獲得的資料。

2）熟悉urllib和beautifulsoup庫的基本使用

反思：

1）完成這個練習的要求很低，僅僅是一個入門練習。還需要嘗試更多更難的練習

2）從實際業務來考慮，編寫爬蟲爬取資料至少是需要一個目的的，即在什麼前提下為了滿足什麼需求才需要進行資料爬取、爬取後資料如何儲存/進一步處理

3）偽造請求頭是一個很有效的反反爬的方法。需要深入練習

爬蟲練習一：爬取睿奢圖片

爬取網站：睿奢-套裝合集-私房定製目標：爬取並儲存該網站分類下每個主題的所有圖片 python版本：python 3.6 使用庫：urllib，Beautifulsoup，os，random，re，time 對網站進行訪問檢視首先需要通過瀏覽器對目標網站進行訪問，瞭解該網站的頁面

Python爬蟲練習三：爬取豆瓣電影分類排行榜

目標網址url: https://movie.douban.com/typerank?type_name=%E5%8A%A8%E4%BD%9C&type=5&interval_id=100:90&action= 使用谷歌瀏覽器的檢查

Python爬蟲實戰一：爬取csdn學院所有課程名、價格和課時

import urllib.request import re,xlwt,datetime class csdn_spider(): def __init__(self): self.c = 0 def sava_data(self,name,class_num,price

爬蟲練習四：爬取b站番劇字幕

由於個人經常在空閒時間在b站看些小視訊歡樂一下，這次就想到了爬取b站視訊的彈幕。這裡就以番劇《我的妹妹不可能那麼可愛》第一季為例，抓取這一番劇每一話對應的彈幕。 1. 分析頁面這部番劇的第一季就有15話，所以我們首先需要找到每一話對應的url，然後再去爬取每一話的彈幕。 1.1 找

Python爬蟲——實戰一：爬取京東產品價格(逆向工程方法)

在京東的單個產品頁面上，通過檢視原始碼檢查html，可以看到 <span class="p-price"><span>￥</span><span class="price J-p-1279836"></sp

【Java爬蟲學習】WebMagic框架爬蟲學習實戰一：爬取網易雲歌單資訊，並存入mysql中

最近，需要使用Java進行爬蟲編寫，就去學了Java的爬蟲。因為之前學習了Scrapy框架，所以學Java的爬蟲使用了WebMagic框架，這個框架是基於Scrapy框架開發的。大家有興趣可以去看看操作文件：這個框架是國人開發的，所以說明文件都是中文，簡單易懂。

Python爬蟲（入門+進階）學習筆記 1-6 瀏覽器抓包及headers設定（案例一：爬取知乎）

爬蟲的一般思路：抓取網頁、分析請求解析網頁、尋找資料儲存資料、多頁處理本節課主要講授如何通過谷歌瀏覽器開發者工具分析真實請求的方法。尋找真實請求的三個步驟分析：使用谷歌瀏覽器開發者工具分析網頁的請求測試：測試URL請求中每個引數的作用，找出控制翻頁等功能的引數重複：多次重複

爬蟲+詞雲：爬取豆瓣電影top100的導演制作圖雲

ray 爬取 open tex 下載頁面 down app zhong form 前段時間做了一個關於豆瓣電影的爬蟲，之後又寫了一個陳奕迅歌詞的詞雲制作，於是我想不如做一個關於豆瓣高分電影導演的詞雲試試，於是有了接下來這篇隨筆。首先，我需要知道豆瓣top100電影詳情頁面

爬蟲任務二：爬取(用到htmlunit和jsoup)通過百度搜索引擎關鍵字搜取到的新聞標題和url，並保存在本地文件中（主體借鑒了網上的資料）

標題 code rgs aps snap one reader url 預處理采用maven工程，免著到處找依賴jar包 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:

Python爬蟲系列 - 初探：爬取旅遊評論

blank .text http fir win64 ati coo get stat Python爬蟲目前是基於requests包，下面是該包的文檔，查一些資料還是比較方便。 http://docs.python-requests.org/en/master/ 爬取某旅遊

Python爬蟲系列 - 初探：爬取新聞推送

http nec apple 下標 for pri Language span round Get發送內容格式 Get方式主要需要發送headers、url、cookies、params等部分的內容。 t = requests.get(url, headers = hea

Python：爬蟲例項2：爬取貓眼電影——破解字型反爬

字型反爬字型反爬也就是自定義字型反爬，通過呼叫自定義的字型檔案來渲染網頁中的文字，而網頁中的文字不再是文字，而是相應的字型編碼，通過複製或者簡單的採集是無法採集到編碼後的文字內容的。現在貌似不少網站都有采用這種反爬機制，我們通過貓眼的實際情況來解釋一下。下圖的是貓眼網頁

Python爬蟲實例：爬取B站《工作細胞》短評——異步加載信息的爬取

localtime pre global web for short sco 網頁解析 save 《工作細胞》最近比較火，bilibili 上目前的短評已經有17000多條。先看分析下頁面右邊 li 標簽中的就是短評信息，一共20條。一般我們加載大量數據的時候，都

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(執行緒池版)

# 本程式親測有效,用於理解爬蟲相關的基礎知識，不足之處希望大家批評指正 from queue import Queue import requests from lxml import etree from multiprocessing.dummy import Pool import t

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(多執行緒版)

# 本程式親測有效,用於理解爬蟲相關的基礎知識，不足之處希望大家批評指正 from queue import Queue import requests from lxml import etree from threading import Thread "

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(多程序版)

# 本程式親測有效,用於理解爬蟲相關的基礎知識，不足之處希望大家批評指正 1 import requests 2 from lxml import etree 3 from multiprocessing import JoinableQueue as Queue 4 from

Python3 Scrapy框架學習一：爬取貓眼Top100榜

以下操作基於Windows平臺。開啟CMD命令提示框：輸入如下命令：開啟專案裡的items.py檔案，定義如下變數，用於儲存。 class MaoyanItem(scrapy.Item): # define the fields for your

python爬蟲【一】爬取文字

我們在安裝py是建議如果使用windows不要安裝原生的py因為windows的c編譯器原因會使某些套件安裝起來有麻煩也就是安裝anaconda版本的pyhttps://www.anaconda.com/download/#windows py官網下載的是原生版本https://www

Python爬蟲練習之一：抓取美團資料

{'poiId': 1653468, 'frontImg': 'http://p0.meituan.net/600.600/mogu/7f102559bd246c78d7f2d2ab066a12d0139144.jpg', 'title': '火宴山（大悅城店）', 'avgScore': 4.9, 'all

python爬蟲十五：爬取12306火車票資訊

轉：https://zhuanlan.zhihu.com/p/26701898 # -*- coding: utf-8 -*- ''' 獲取12306城市名和城市程式碼的資料檔名： parse_station.py ''' import requests import

爬蟲練習一：爬取睿奢圖片

對網站進行訪問檢視

編寫程式碼

實現效果

總結

相關推薦