Scrapy 爬取圖片例項

阿新 • • 發佈：2018-12-07

目標:360攝影美圖

建立scrapy:

scrapy startproject images360

建立spider:

scrapy genspider images images.so.com

修改程式碼：

修改spider：修改images.py：程式碼是根據下拉網頁的AJAX請求分析出來的。

# -*- coding: utf-8 -*-
from scrapy import Spider, Request
from urllib.parse import urlencode
import json

from images360.items import ImageItem


class ImagesSpider(Spider):
    name = 'images'
    allowed_domains = ['images.so.com']
    start_urls = ['http://images.so.com/']
    
    
    def start_requests(self):
        data = {'ch': 'beauty', 'listtype': 'new'}
        base_url = 'https://image.so.com/zj?'
        for page in range(1, self.settings.get('MAX_PAGE') + 1):
            data['sn'] = page * 30
            params = urlencode(data)
            url = base_url + params
            yield Request(url, self.parse)
    
    def parse(self, response):
        result = json.loads(response.text)
        for image in result.get('list'):
            item = ImageItem()
            item['id'] = image.get('imageid')
            item['url'] = image.get('qhimg_url')
            item['title'] = image.get('group_title')
            item['thumb'] = image.get('qhimg_thumb_url')
            yield item

修改items.py：想要得到的欄位

from scrapy import Item,Field


class ImageItem(Item):
    collection = table = 'images'
    
    id = Field()
    url = Field()
    title = Field()
    thumb = Field()

修改piepeline.py：用了內建imagespipeline儲存圖片到本地:

import pymongo
from scrapy import Request
from scrapy.exceptions import DropItem
from scrapy.pipelines.images import ImagesPipeline

class ImagePipeline(ImagesPipeline):
    def file_path(self, request, response=None, info=None):
        url = request.url
        file_name = url.split('/')[-1]
        return file_name
    
    def item_completed(self, results, item, info):
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem('Image Downloaded Failed')
        return item
    
    def get_media_requests(self, item, info):
        yield Request(item['url'])

最後修改setting:

ROBOTSTXT_OBEY = False #修改

ITEM_PIPELINES = {
    'images360.pipelines.ImagePipeline': 300,
    #'images360.pipelines.MongoPipeline': 301,
}

MAX_PAGE = 50

#MONGO_URI = '192.168.6.23'
#MONGO_DB = 'images360'

最後執行:

scrapy crawl images

Scrapy 爬取圖片例項

目標:360攝影美圖建立scrapy: scrapy startproject images360 建立spider: scrapy genspider images images.so.com 修改程式碼：修改spider：修改images.py：程式碼是根據下拉網頁的

scrapy爬取圖片

深復制 cal xtra n) containe ... line example 定義一.遇到的問題總結 scrapy中爬取的多有數據（通過spider.py）,最後必須通過items實例格式化後，傳遞到pipelines中進行進一步的處理（註意scrapy內置的pip

scrapy爬取圖片並自定義圖片名字

　　前言　　　　Scrapy使用ImagesPipeline類中函式get_media_requests下載到圖片後，預設的圖片命名為圖片下載連結的雜湊值，例如：它的下載連結是，雜湊值為7710759a8e3444c8d28ba81a4421ed,那麼最終的圖片下載到指定路徑後名稱為771075

Python簡單爬取圖片例項

都知道Python的語法很簡單易上手，也很適合拿來做爬蟲等等，這裡就簡單講解一下爬蟲入門——簡單地爬取下載網站圖片。效果就像這樣自動爬取下載圖片到本地：程式碼：其實很簡單，我們直接看下整體的程式碼： #coding = utf-

Scrapy爬取圖片並儲存

Scrapy提供了一個 item pipeline ，來下載屬於某個特定專案的圖片，比如，當你抓取產品時，也想把它們的圖片下載到本地。本文接豆瓣top250電影，爬取海報圖片。一、Images

Scrapy 爬取圖片/gif/視訊

Scrapy 爬取資料（圖片/gif/視訊） Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中。 1. 安裝scrapy 我用的是Anaconda，所以執行 c

使用Scrapy爬取圖片入庫,並儲存在本地

使用Scrapy爬取圖片入庫,並儲存在本地上篇部落格已經簡單的介紹了爬取資料流程,現在讓我們繼續學習scrapy 目標: 爬取愛卡汽車標題,價格以及圖片存入資料庫,並存圖到本地好了不多說,讓我們實現下效果我們仍用scrapy框架來編寫我們的專案

用scrapy爬取搜狗Lofter圖片

request index import rap .so 圖片 file loader clas 用scrapy爬取搜狗Lofter圖片 # -*- coding: utf-8 -*- import json import scrapy from scrapy.http

使用scrapy爬取手機版鬥魚主播的房間圖片及昵稱

發現對手 std pipeline obj ted += 指定 foo 目的：通過fiddler在電腦上對手機版鬥魚主播進行抓包，爬取所有主播的昵稱和圖片鏈接關於使用fiddler抓取手機包的設置：把手機和裝有fiddler的電腦處在同一個網段（同一個wifi），手機

scrapy爬取校花網圖片

xiaohua.py # -*- coding: utf-8 -*- import scrapy from pyquery import PyQuery from scrapy.http import Request from ..items import XiaohuarItem class

python+scrapy爬取鬥魚圖片

建立scrapy的專案請參考：https://blog.csdn.net/qq_35723619/article/details/83614670 items的實現： DouyumeinvSpider建立：這次我們爬去的是json資料包：我們可以通過network監控：

Scrapy爬取Ajax（非同步載入）網頁例項——簡書付費連載

這兩天學習了Scrapy爬蟲框架的基本使用，練習的例子爬取的都是傳統的直接載入完網頁的內容，就想試試爬取用Ajax技術載入的網頁。這裡以簡書裡的優選連載網頁為例分享一下我的爬取過程。網址為： https://www.jianshu.com/mobile/books?category_id=28

python scrapy爬取知乎問題和收藏夾下所有答案的內容和圖片

上文介紹了爬取知乎問題資訊的整個過程,這裡介紹下爬取問題下所有答案的內容和圖片,大致過程相同,部分核心程式碼不同. 爬取一個問題的所有內容流程大致如下: 一個問題url 請求url,獲取問題下的答案個數(我不需要,因為之前獲取問題資訊的時候儲存了問題的回答個數) 通過答案的介面去獲取答案(如果一次獲取5

scrapy爬取校花網男神圖片儲存到本地

爬蟲四部曲，本人按自己的步驟來寫，可能有很多漏洞，望各位大神指點指點 1、建立專案 scrapy startproject xiaohuawang scrapy.cfg: 專案的配置檔案xiaohuawang/: 該專案的python模組。之後您將在此加入程式碼。xiaohuawang/items.py: 專

Scrapy爬取搜狗圖片

1.新建專案 scrapy startproject images360 scrapy genspider images images.so.com 2.構造請求在setting.py定義爬取的頁數 MAX_PAGE=50 定義start_re

使用scrapy簡單爬取圖片並儲存

# -*- coding: utf-8 -*- import scrapy class Tu699Spider(scrapy.Spider): name = 'tu_699' allowed_domains = ['699pic.com'] start_urls = ['http:

爬蟲專案：scrapy爬取暱圖網全站圖片

一、建立專案、spider，item以及配置setting建立專案：scrapy startproject nitu建立爬蟲：scrapy genspider -t basic nituwang nipic.com寫個item：# -*- coding: utf-8 -*-

scrapy爬取百度圖片

百度圖片基本沒什麼反爬蟲措施，我們爬取圖片時直接滑鼠右鍵--->檢查----->network---->XHR，往下拖動得到頁面，可以看到headers下的General,檢視實際的請求Request URL,提取其中的關鍵資訊即可話不多說，直接上程式碼

scrapy爬取美女圖片

setting ipa ins star font @class del 分頁 date 使用scrapy爬取整個網站的圖片數據。並且使用 CrawlerProcess 啟動。 1 # -*- coding: utf-8 -* 2 import scrapy 3 impor

使用Scrapy爬取鬥魚圖片

1.具體檔案結構 2.程式碼： items # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # http://doc.

Scrapy 爬取圖片例項

相關推薦