使用Scrapy框架爬取360攝影圖片的資訊

阿新 • • 發佈：2018-12-15

要點

1.分析Ajax請求

在這裡插入圖片描述觀察到Ajax請求引數的變化，有一個引數sn一直在變化，當sn=30時，返回的時前30張圖片，listtype時排序方式，temp是引數可以忽略

2.構造請求和提取資訊

# -*- coding: utf-8 -*-
import scrapy
from images360.settings import MAX_PAGE
from images360.items import Images360Item
import json


class ImagesSpider(scrapy.Spider):
    name = 'images'
    '''
    這裡將start_urls 列表刪去了
    start_urls: 它是起始URL列表，當我們沒有實現start_requests()方法時，預設會從這個列表開始抓取
    '''

    def start_requests(self):  # 此方法用於生成初始請求，它必須返回一個可迭代物件
        for page in range(MAX_PAGE):  # MAX_PAGE在settings.py中定義好了
            url = 'https://images.so.com/zj?ch=photography&sn={}&listtype=new&temp=1'.format(page * 30)
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        result = json.loads(response.body)
        item = Images360Item()
        for image in result.get('list'):  # 遍歷一個列表
            item['id'] = image.get('imageid')  # ID
            item['url'] = image.get('qhimg_url')  # url
            item['title'] = image.get('group_title')  #標題
            yield item

3.修改User-Agent

在middlewares.py 中新增一個RandomUserAgentMiddleware類

class RandomUserAgentMiddleware():
    def __init__(self):
        self.user_agent = [
            'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1'
            'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0' 

            'Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50'
            'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'
            'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20' 

        ]
    def process_request(self,request,spider):
        request.headers['User-Agent']=random.choice(self.user_agent)

首先先定義了幾個不同的User-Agent,然後實現 process_request(request, spider) 方法，修改request的headers屬性的User-Agent，隨機選取了User-Agent

要使之生效需要在 settings.py 中取消DOWNLOADER_MIDDLEWARES註釋，並改寫成如下內容

DOWNLOADER_MIDDLEWARES = {
   'images360.middlewares.RandomUserAgentMiddleware': 543,
}

4.將資料存入資料庫

# 連線資料時需要的引數
MYSQL_HOST = 'localhost'
MYSQL_DATABASE = 'spiders'
MYSQL_PORT = 3306
MYSQL_USER = 'root'
MYSQL_PASSWORD = 'yellowkk'#密碼

class MysqlPipeline():
    def __init__(self, host, database, user, password, port):
        self.host = host
        self.database = database
        self.user = user
        self.password = password
        self.port = port

    @classmethod
    def from_crawler(cls, crawler):  # 類方法，引數是crawler，通過此物件我們可以拿到Scrapy的所有核心元件
        return cls(
            host=crawler.settings.get('MYSQL_HOST'),
            database=crawler.settings.get('MYSQL_DATABASE'),
            user=crawler.settings.get('MYSQL_USER'),
            password=crawler.settings.get('MYSQL_PASSWORD'),
            port=crawler.settings.get('MYSQL_PORT')
        )

    def open_spider(self, spider):
        self.db = pymysql.connect(host=self.host, user=self.user, password=self.password, port=self.port,
                                  db=self.database, charset='utf8')
        self.cursor = self.db.cursor()

    def close_spider(self, spider):
        self.db.close()

    def process_item(self, item, spider):
        data = dict(item)  # item是一個類字典的型別，將其轉化為字典型別、
        keys = ','.join(data.keys())
        values = ','.join(['%s'] * len(data))
        sql = 'insert into image360({}) values({})'.format(keys, values)#插入方法是一個動態構造SQL語句的方法
        self.cursor.execute(sql, tuple(data.values()))
        self.db.commit()
        return item

最後在 settings.py 中設定ITEM_PIPELINES,如下

ITEM_PIPELINES = {
   'images360.pipelines.MysqlPipeline': 300,

}

使用Scrapy框架爬取360攝影圖片的資訊

要點 1.分析Ajax請求觀察到Ajax請求引數的變化，有一個引數sn一直在變化，當sn=30時，返回的時前30張圖片，listtype時排序方式，temp是引數可以忽略 2.構造請求和提取資訊 #

python scrapy框架爬取知乎提問資訊

前文介紹了python的scrapy爬蟲框架和登入知乎的方法. 這裡介紹如何爬取知乎的問題資訊,並儲存到mysql資料庫中. 首先,看一下我要爬取哪些內容: 如下圖所示,我要爬取一個問題的6個資訊: 問題的id(question_id) 標題(title) 問題描述

使用scrapy框架爬取蜂鳥論壇的攝影圖片並下載到本地

utf 賦值 col 異常處理創建文件夾 clas watermark follow ret 目標網站：http://bbs.fengniao.com/使用框架：scrapy 因為有很多模塊的方法都還不是很熟悉，所有本次爬蟲有很多代碼都用得比較笨，希望各位讀者能給處意見

Python：scrapy框架爬取校花網男神圖片儲存到本地

爬蟲四部曲，本人按自己的步驟來寫，可能有很多漏洞，望各位大神指點指點 1、建立專案 scrapy startproject xiaohuawang scrapy.cfg: 專案的配置檔案 xiaohuawang/: 該專案的python模組。之後您將在此加入程

利用scrapy框架爬取百度閱讀書籍資訊

專案需求：爬取百度閱讀的榜單圖書的資訊，如：書名、評分、作者、出版方、標籤、價格，生成一個csv檔案。專案的大致流程：建立spider工程專案，建立spider爬蟲，定義相關欄位，分析頁面資訊...... 由於scpapy框架，之間存在相互聯絡，針對此專案不同的檔案

[Python爬蟲]Scrapy框架爬取bilibili個人資訊

啟動檔案main.py from scrapy.cmdline import execute execute('scrapy crawl bili_gr_xx'.split()) 執行spider下的爬取檔案 # -*- coding: ut

Python scrapy框架爬取瓜子二手車資訊資料

專案實施依賴： python，scrapy ，fiddler scrapy安裝依賴的包：可以到https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下載 pywin32，lxml，Twisted，scrapy然後pip安裝專案實施開始： 1、建立scrapy專

用scrapy框架爬取映客直播用戶頭像

xpath print main back int open for pri nbsp 1. 創建項目 scrapy startproject yingke cd yingke 2. 創建爬蟲 scrapy genspider live 3. 分析http://www.i

scrapy框架爬取豆瓣讀書（1）

tin rap 豆瓣 pipe 網頁 xpath from lin tor 1.scrapy框架 Scrapy，Python開發的一個快速、高層次的屏幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛，可以用於數據挖掘、監測和自動化

Scrapy ：爬取培訓網站講師資訊

Scrapy 框架 Scrapy是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。 Scrapy 使用

scrapy框架爬取虎撲論壇球隊新聞

用python爬蟲scrapy框架爬取虎撲論壇的30支球隊新聞 Scrapy 框架 Scrapy是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及

分散式scrapy+redis 爬取房天下租房資訊

利用scrapy框架結合redis分散式爬蟲 #建立專案 scrapy startproject homepro #根據提示進入指定目錄建立爬蟲 scrapy genspider home example.com #spider爬蟲 scrapy genspider -t c

使用scrapy框架爬取貓眼電影全部的頁碼並寫入資料庫

使用scrapy框架爬取貓眼電影爬取全部的頁數 import scrapy,re from jobmaoyan.items import JobmaoyanItem class MaoyanSpider(scrapy.Spider): name = '

scrapy框架爬取微博之spider檔案

# -*- coding: utf-8 -*- import scrapy from scrapy.settings import default_settings import json from ..items import WeiboItem import

python scrapy框架爬取豆瓣top250電影篇一代理編寫

爬蟲偽裝: UA中介軟體編寫 settings設定 from scrapy import signals import base64 import random class my_useragent(object): def process_req

python scrapy框架爬取豆瓣top250電影篇一儲存資料到mongogdb | mysql中

存到mongodb中環境 windows7 mongodb4.0 mongodb安裝教程設定具體引數在管道里面寫具體引數開啟settings 設定引數測試開始–結果程式碼 import pymongo from douban.

python scrapy框架爬取豆瓣top250電影篇一明確目標&&爬蟲編寫

1.明確目標 1.1在url上找到要爬取的資訊 1.2.確定了資訊,編寫items檔案 class DoubanItem(scrapy.Item): &nb

Scrapy+Splash爬取京東python書本資訊（遇到的問題記錄）

今天用splash進行京東的圖書的爬蟲。有了以下幾點的錯誤總結: （1）按照參考書上的方式，寫好lua_script檔案。但是自己在lua_script檔案後面加了幾個中文註釋，結果執行時一直出錯，後來意識到了問題，將這些中文註釋給刪除了，這時候才沒有提示剛剛出現的錯誤。

scrapy框架爬取前程無憂

用了幾天時間爬取了前程無憂上的資料進行分析，完成了一個小專案，截取了部分程式碼，不足之處，你也打不到我！ pi… pi… 網站：前程無憂資料庫：MySQL 知識點：scrapy框架，mysql資料庫，xpath，echarts，jeiba 直接看專案！爬蟲程式碼》》 i

03_使用scrapy框架爬取豆瓣電影TOP250

前言：　　本次專案是使用scrapy框架，爬取豆瓣電影TOP250的相關資訊。其中涉及到代理IP，隨機UA代理，最後將得到的資料儲存到mongoDB中。本次爬取的內容實則不難。主要是熟悉scrapy相關命令以及理解框架各部分的作用。 1、本次目標　　爬取豆瓣電影TOP250的資訊，將得到的資料儲

使用Scrapy框架爬取360攝影圖片的資訊

要點

1.分析Ajax請求

2.構造請求和提取資訊

3.修改User-Agent

4.將資料存入資料庫

相關推薦