Python+Scrapy批量抓取唯一相簿圖片並按系列儲存

阿新 • • 發佈：2019-01-29

人生苦短，我用python！

博主閒暇中自學Scrapy，水平有限，不到之處，還請大家指正。

開發及執行環境

CentOS Linux release 7.4.1708 + Pycharm2018.1.3

Python 2.7.5 + Scrapy 1.5.0

如何安裝開發環境和執行環境這裡就不贅述了，Scrapy是個很強大的框架，本例只使用了其中部分功能。

乾貨

MMspider.py

爬蟲主解析程式，關於網站原始碼解析以及XPATH語法，請自行百度，或者留言

# --coding:utf-8--
import os
import scrapy
import datetime
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from mmonly.items import mmonlyItem

class Myspider(CrawlSpider):
    name = 'mmspider'
    base = r'/home/yinchong/Downloads/mmtp/'  # 定義基礎儲存路徑

    allowed_domains = ['mmonly.cc']
    start_urls = [
        'http://www.mmonly.cc/mmtp/',
    ]
    # 定義主頁面爬取規則，有下一頁則繼續深挖，其他符合條件的連結則呼叫parse_item解析原圖地址   
    rules = (
        Rule(LinkExtractor(allow=(''), restrict_xpaths=(u"//a[contains(text(),'下一頁')]")), follow=True),
        Rule(LinkExtractor(allow=('http://www.mmonly.cc/(.*?).html'), restrict_xpaths=(u"//div[@class='ABox']")), callback="parse_item", follow=False),
    )

    def parse_item(self, response):
        item = mmonlyItem()
        item['siteURL'] = response.url
        item['title'] = response.xpath('//h1/text()').extract_first()   # xpath解析標題
        item['path'] = self.base + item['title']   # 定義儲存路徑，同一系列儲存在同一目錄
        path = item['path']
        if not os.path.exists(path):
            os.makedirs(path)             # 如果儲存路徑不存在則建立
        item['detailURL'] = response.xpath('//a[@class="down-btn"]/@href').extract_first()   # 解析原圖URL
        print(item['detailURL'] )
        num = response.xpath('//span[@class="nowpage"]/text()').extract_first()   # 解析同一系列圖片編號
        item['fileName'] = item['path'] + '/' + str(num) + '.jpg'        # 拼接圖片名稱

        print datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'), item['fileName'], u'解析成功！'
        yield item
        # 傳入的解析item的連結如果有下一頁的話，繼續呼叫parse_item
        next_page = response.xpath(u"//a[contains(text(),'下一頁')]/@href").extract_first()
        if next_page is not None:
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse_item)

items.py

# -*- coding: utf-8 -*-
import scrapy

class mmonlyItem(scrapy.Item):
    siteURL = scrapy.Field() # 圖片網站地址
    detailURL = scrapy.Field() # 圖片原圖地址
    title = scrapy.Field()  # 圖片系列名稱
    fileName = scrapy.Field() # 圖片儲存全路徑名稱
    path = scrapy.Field() # 圖片系列儲存路徑

pipelines.py

下載處理程式

# -*- coding: utf-8 -*-
import requests
import datetime

class mmonlyPipeline(object):
    def process_item(self, item, spider):
        count = 0
        detailURL = item['detailURL']
        fileName = item['fileName']
        while True:
            try:
                print datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'), u'正在儲存圖片：', detailURL
                print u'檔案：', fileName
                image = requests.get(detailURL) # 根據解析出的item原圖連結下載圖片
                f = open(fileName, 'wb')        # 開啟圖片
                f.write(image.content)          # 寫入圖片
                f.close()
            except Exception, e:
                print fileName, 'other fault:', e
                count += 1
            else:
                print datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'), fileName, u'儲存成功！'
                break
        return item

settings.py

scrapy設定，由於本次採集的網站反爬不嚴，未使用隨機User-Agent和IP代理。

# -*- coding: utf-8 -*-
# Scrapy settings for mmonly project

BOT_NAME = 'mmonly'
SPIDER_MODULES = ['mmonly.spiders']
NEWSPIDER_MODULE = 'mmonly.spiders'
FEED_EXPORT_ENCODING = 'utf-8'

ROBOTSTXT_OBEY = False
# 預設是16，一次可以請求的最大次數
CONCURRENT_REQUESTS = 32
# 下載延遲
# DOWNLOAD_DELAY = 0.1
COOKIES_ENABLED = False
DEFAULT_REQUEST_HEADERS = {
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Encoding':'gzip, deflate, sdch',
    'Accept-Language':'zh-CN,zh;q=0.8',
    'Cache-Control':'max-age=0',
    'Connection':'keep-alive',
    'User-Agent':'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

ITEM_PIPELINES = {'mmonly.pipelines.mmonlyPipeline': 100}
# 日誌級別
LOG_LEVEL = 'INFO'
LOG_FILE = '/tmp/log.txt'

main.py

from scrapy.cmdline import execute
execute(['scrapy', 'crawl', 'mmspider'])

命令列執行scrapy crawl mmspider或者 python main.py

Pycharm執行main.py

執行效果

執行main.py開始抓取圖片，總計抓取圖片超過20萬張，執行時間會很長，需要的磁碟空間也很大，做好心理準備。如果您有好的多執行緒方案，可以留言討論。

Python+Scrapy批量抓取唯一相簿圖片並按系列儲存

人生苦短，我用python！博主閒暇中自學Scrapy，水平有限，不到之處，還請大家指正。開發及執行環境CentOS Linux release 7.4.1708 + Pycharm2018.1.3 Python 2.7.5 + Scrapy 1.5.0如何安裝開發環境和執

python多任務抓取虎牙妹子圖片

() like windows url odin jpg all request 任務 import re import urllib.request import gevent def download(image_download, images_path,i):

Python:批量按xml標註將目標crop剪下圖片並按類儲存到相應資料夾

from __future__ import division import os from PIL import Image import xml.dom.minidom import numpy as np ImgPath = '/' AnnoPath = '' ProcessedP

Python批量抓取商品數據

Python批量抓取商品數據（批量抓取pids.csv文件中商品數據）pids.csv 文件內容：pid733641371225907336415 報錯：解決後代碼： Python批量抓取商品數據

利用Python批量抓取京東評論數據

() 開始 book for return SQ 數據返回 python js對象京東圖書評論有非常豐富的信息，這裏面就包含了購買日期、書名、作者、好評、中評、差評等等。以購買日期為例，使用Python + Mysql的搭配進行實現，程序不大，才100行。相關的解釋我都在

python爬蟲-- 抓取網頁、圖片、文章

零基礎入門Python，給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2，爬取新聞網站新聞列表 3，爬取圖片 4，把爬取到的資料存在本地

Node 批量抓取並下載某站點的圖片

批量抓取網站圖片並儲存在本地目標網站：妹子圖（點進去別忘了回來~~）專案功能：批量下載該網站的相簿姊妹專案：批量爬取並下載頭條視訊啟動專案命令 npm i npm start 配置檔案 // 配置相關 module.exports = { ori

Python爬蟲入門教程，突破煎蛋網反爬措施，妹子圖批量抓取！

今天寫一個爬蟲愛好者特別喜歡的網站煎蛋網，這個網站其實還是有點意思的，網站很多人寫了N多的教程了，各種方式的都有，當然網站本身在爬蟲愛好者的不斷進攻下，也在不斷的完善，反爬措施也很多，今天我用 selenium 在揍他一波。

爬蟲框架Scrapy實戰之批量抓取招聘資訊--附原始碼

瞭解更多Python爬蟲內容請微信公眾號關注：Python技術博文所謂網路爬蟲，就是一個在網上到處或定向抓取資料的程式，當然，這種說法不夠專業，更專業的描述就是，抓取特定網站網頁的HTML資料。不過由於一個網站的網頁很多，而我們又不可能事先知道所有網頁的URL地址

Python爬蟲：抓取內涵段子1000張搞笑圖片-上篇（小爬蟲誕生篇）

出於興趣，在《幕課網：Python 開發簡單爬蟲》上學習了點兒 Python 爬蟲的入門知識，跟著視訊教程抓取了百度百科的 1000 個頁面。然後自己嘗試抓取一個國外網站的資料，但可能是由於最近召開

python 網路爬蟲抓取圖片

#-*- encoding: utf-8 -*- ''' Created on 2014-4-24 @author: Leon Wong ''' import urllib2 import urllib import re import time import os im

用Python批量爬取妹紙圖片

通過Python編寫爬蟲，批量爬取妹紙圖片，本文的爬蟲實現爬取妹子圖網站（http://www.mzitu.com/zipai/）中妹子自拍欄目中所有妹子的圖片。開啟自拍欄目地址http://www.mzitu.com/zipai/後，我們發現當前頁面預

Python爬蟲抓取女演員圖片

介紹利用Python爬蟲抓取日本女演員照片。遇到的最大問題就是該網站用了cloudflare以及其他的策略禁止爬蟲爬取資訊，導致urllib自帶的urlretrieve函式無法使用，而其他部分都較為

python爬蟲之利用scrapy框架抓取新浪天氣資料

scrapy中文官方文件：點選開啟連結Scrapy是Python開發的一個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試，Scrapy吸引人的地方在於它是一個框架，任何人都可以根據

用Python進行網頁抓取

google 神奇顯示 rss 遍歷 ecb data- 可用 appdata 引言　　從網頁中提取信息的需求日益劇增，其重要性也越來越明顯。每隔幾周，我自己就想要到網頁上提取一些信息。比如上周我們考慮建立一個有關各種數據科學在線課程的歡迎程度和意見的索引。我們不僅需要

scrapy-splash抓取動態數據例子八

ear .config war rep ont code port 動態數據 shm 一、介紹　　　　本例子用scrapy-splash抓取界面網站給定關鍵字抓取咨詢信息。　　　　給定關鍵字：個性化；融合；電視　　　　抓取信息內如下：　　　　　　1、資訊標題

scrapy-splash抓取動態數據例子十一

tel ems 網站 tput findall spi 來源標題 end 　　一、介紹　　　　本例子用scrapy-splash抓取活動樹網站給定關鍵字抓取活動信息。　　　　給定關鍵字：數字；融合；電視　　　　抓取信息內如下：　　　　　　1、資訊標題　

Python爬蟲：抓取手機APP的數據

sig ner ont sele ebo span fail pytho 抓取摘要: 大多數APP裏面返回的是json格式數據，或者一堆加密過的數據。這裏以超級課程表APP為例，抓取超級課程表裏用戶發的話題。 1、抓取APP數據包方法詳細可以參考這篇博文：

爬蟲-python實現的抓取騰訊視頻所有電影

mar read light else highlight 電影 %s find 圖片用python實現的抓取騰訊視頻所有電影的爬蟲 # -*- coding: utf-8 -*- import re import urllib2 from bs4 import

Hibernate_day04---HQL查詢、QBC查詢、多表查詢、檢索策略、批量抓取

一、Hibernate查詢方式及結果存放查詢方式（五種） 1）物件導航查詢：一對多中，查詢某個"一"對應的所有"多" 2）OID查詢：根據id查詢某一條記錄，返回物件 3）HQL查詢：使用Query物件，內建hql語句實現查詢。 4）QBC查詢：使用Criter

Python+Scrapy批量抓取唯一相簿圖片並按系列儲存

開發及執行環境

乾貨

MMspider.py

items.py

pipelines.py

settings.py

main.py

執行效果

相關推薦