利用scrapy爬取文件後並基於管道化的持久化存儲

阿新 • • 發佈：2019-05-10

val set field wid 參數 err spi http res

我們在pycharm上爬取

首先我們可以在本文件打開命令框或在Terminal下創建

scrapy startproject xiaohuaPro ------------創建文件

技術分享圖片

scrapy genspider xiaohua www.xxx.com ----------創建執行文件

一.首先我們要進行數據的爬取　

import scrapy
from xioahuaPro.items import XioahuaproItem


class XiaohuaSpider(scrapy.Spider):
    name = ‘xiaohua‘
    start_urls 
=[‘http://www.521609.com/daxuemeinv/‘]
    #生成一個通用的url模板
    url = ‘http://www.521609.com/daxuemeinv/list8%d.html‘
    pageNum =1

    def parse(self, response):
        li_list=response.xpath(‘//div[@class="index_img list_center"]/ul/li‘)
        for li in li_list:
            name = li.xpath(‘./a[2]/text() | ./a[2]/b/text() 
‘).extract_first()
            img_url = ‘http://www.521609.com‘+li.xpath(‘./a[1]/img/@src‘).extract_first()
            #實例化一個item類型的對象
            item = XioahuaproItem()
            item[‘name‘] = name
            item[‘img_url‘] = img_url
            #item提交給管道
            yield item
        # 
 對其他頁碼的url進行手動i請求的發送
        if self.pageNum <= 24:   ------爬取的頁數
            self.pageNum += 1
            new_url = format(self.url%self.pageNum)
            yield scrapy.Request(url=new_url,callback=self.parse)

之後再items.py文件下為item對象設置屬性

將爬取到的所有信息全部設置為item的屬性

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class XioahuaproItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    img_url = scrapy.Field()

二.寫入pipelines.py內容

首先寫入到自定義的文件裏去

作用：將解析到的數據存儲到某一個平臺中。
import pymysql
from redis import Redis
class XioahuaproPipeline(object):
    fp = None
    def open_spider(self,spider):
        print(‘開始爬蟲！‘)
        self.fp = open(‘./xiaohua.txt‘,‘w‘,encoding=‘utf-8‘)
    #作用：實現持久化存儲的操作
    #該方法的item參數就可以接收爬蟲文件提交過來的item對象
    #該方法每接收一個item就會被調用一次（調用多次）
    def process_item(self, item, spider):
        name = item[‘name‘]
        img_url = item[‘img_url‘]
        self.fp.write(name+‘:‘+img_url+‘\n‘)
        #返回值的作用：就是將item傳遞給下一個即將被執行的管道類
        return item
#
    def close_spider(self,spider):
        print(‘結束爬蟲！‘)
        self.fp.close()
#

寫到數據庫裏面,我們要在數據庫裏面創建個表(將mysql和redis都啟動)

class MysqlPipeline(object):
    conn = None
    cursor = None
    def open_spider(self, spider):
        #解決數據庫字段無法存儲中文處理：alter table tableName convert to charset utf8;
        self.conn = pymysql.Connect(host=‘127.0.0.1‘,port=3306,user=‘root‘,password=‘123‘,db=‘test‘,charset=‘utf8‘)
        print(self.conn)
    def process_item(self, item, spider):
        self.cursor = self.conn.cursor()
        try:
            self.cursor.execute(‘insert into xiaohua values ("%s","%s")‘%(item[‘name‘],item[‘img_url‘]))
            self.conn.commit()
        except Exception as e:
            print(e)
            self.conn.rollback()
        return item
    def close_spider(self, spider):
        self.cursor.close()
        self.conn.close()

在相同的文件下創建redis類寫入數據

class RedisPipeline(object):
    conn = None
    def open_spider(self, spider):
        self.conn = Redis(host=‘127.0.0.1‘,port=6379)
        print(self.conn)
    def process_item(self, item, spider):
        dic = {
            ‘name‘:item[‘name‘],
            ‘img_url‘:item[‘img_url‘]
        }
        print(str(dic))
        self.conn.lpush(‘xiaohua‘,str(dic))
        return item
    def close_spider(self, spider):
        pass

三.更改配置文件,在settings.py裏面

#添加上這行代碼
USER_AGENT = ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36‘

# Obey robots.txt rules
ROBOTSTXT_OBEY = False       -----改成False

ITEM_PIPELINES = {
    ‘xioahuaPro.pipelines.XioahuaproPipeline‘: 300,  ---對應文件
    # ‘xioahuaPro.pipelines.MysqlPipeline‘: 301,    ----對應數據庫

    # ‘xioahuaPro.pipelines.RedisPipeline‘: 302,    -----對應redis
}

LOG_LEVEL = ‘ERROR‘     
　　　　　　　　　　　　# CRITICAL --嚴重錯誤
　　　　　　　　　　　　#ERROR    ---一般錯誤
　　　　　　　　　　　　#WARNING ---警告信息
　　　　　　　　　　　　#INFO  ---一般信息
　　　　　　　　　　　　#DEBUG  --調試信息

然後我們在終端去指定爬蟲程序

scrapy crawl 名字(name對應的值)

利用scrapy爬取文件後並基於管道化的持久化存儲

val set field wid 參數 err spi http res 我們在pycharm上爬取首先我們可以在本文件打開命令框或在Terminal下創建 scrapy startproject xiaohuaPro ------------創建文件 s

爬蟲--使用scrapy爬取糗事百科並在txt文件中持久化存儲

max color 圖片得到 acc deb ould ins ant 工程目錄結構　spiders下的first源碼　　 # -*- coding: utf-8 -*- import scrapy from firstBlood.items imp

利用 Scrapy 爬取知乎用戶信息

oauth fault urn family add token post mod lock 　　思路：通過獲取知乎某個大V的關註列表和被關註列表，查看該大V和其關註用戶和被關註用戶的詳細信息，然後通過層層遞歸調用，實現獲取關註用戶和被關註用戶的關註列表和被關註列表，最終實

JS截取文件後綴名

for 文件名 substr his 一個 let pre 後綴名 bsp let fileName = this.file.name.lastIndexOf(".");//取到文件名開始到最後一個點的長度 let fileNameLength = this.file.n

百度音樂爬取文件練習

PE F12 正則表達式 con hit 歌曲 content 導入存儲 import requests import re #正則表達式庫導入倒推部分下載文件的代碼url=‘http://zhangmenshiting.qianqian.com/data2/music/

利用scrapy爬取藝龍評論

yinlong_spider: import scrapy import urllib.request import requests import demjson from scrapy.spiders import CrawlSpider from yilong.items import

利用scrapy爬取需要登入的網站的資料（包含驗證碼的處理）

利用scrapy爬取需要登入的網站的資料（包含驗證碼的處理）–以爬取豆瓣網資料為例 1、在cmd命令列中輸入 scrapy startproject douban，建立scrapy爬蟲專案 2、在cmd命令列中調整到douban專案資料夾下輸入 scrapy genspider -t

利用Python爬取房產資料！並在地圖上顯示！Python乃蒂花之秀！

JiwuspiderSpider.py # -*- coding: utf-8 -*- from scrapy import Spider,Request import re from jiwu.items import JiwuItem clas

利用scrapy爬取傳智播客教師資料（修改正確版）

目錄 6.結果：和視訊裡面的有些出入，因為我用他的沒執行出來，錯誤找了好久，終於找到了，請大家對應起來，此版本一定可以執行成功。 1.itcast.py # -*- coding: utf-8 -*- import scrapy from ITc

爬蟲實戰（一）——利用scrapy爬取豆瓣華語電影

爬蟲第一個專案是爬取豆瓣華語電影，後面將對這部分資料進行分析。本文也是發表於『運籌OR帷幄』微信公眾號的《用資料帶你瞭解電影行業—華語篇》的爬蟲介紹篇。 1. 爬取思路在觀察了豆瓣每個影片的連結地址後，寫下了主要思路：（1）在豆瓣電影的選片頁面，篩選所有華

利用Scrapy爬取所有知乎使用者詳細資訊並存至MongoDB

本節目標本節要實現的內容有：從一個大V使用者開始，通過遞迴抓取粉絲列表和關注列表，實現知乎所有使用者的詳細資訊的抓取。將抓取到的結果儲存到 MongoDB，並進行去重操作。思路分析我們都知道每個人都有關注列表和粉絲列表，尤其對於大V來說，粉絲和關注尤其

C# 使用FileUpload控件上傳圖片，將文件轉換成二進制進行存儲與讀取

擴展實現 bmi extension aaa 插入數據問題 pup cat 狀況描述：　　需要上傳文件，但是不想要保存到實體路徑下，便可以用該功能來實現。效果圖：　　　　點擊【Upload】按鈕，上傳文件到數據庫；　　點擊【Preview】，預覽文件；

小程序用thinkPHP上傳文件到騰訊雲對象存儲空間

php<?php/** * Created by PhpStorm. * User: Administrator * Date: 2017/11/22 * Time: 10:48 */ namespace Home\Controller;//命名空間 require(‘cos-php-sd

Python爬蟲系列之四：利用Python爬取PyODPS頁面並整合成PDF文件

文章架構開發場景在日常開發過程中，經常需要參考一些文件。對於線上文件，往往由於網速等原因，用起來總不是那麼（ma）順（fan）心。開發工具 Anaconda Python 2 實現方案基於 bs4 模組標籤解析爬取

C# 利用FTP自動下載xml文件後利用 FileSystemWatcher 監控目錄下文件變化並自動更新數據庫

use img div 進行 ssa reg c# col without using FtpLib; using System; using System.Collections.Generic; using System.ComponentModel;

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

利用scrapy輕鬆爬取招聘網站資訊並存入MySQL

前言 Scrapy版本：1.4； Python版本：3.6； OS：win10；本文完整專案程式碼：完整示例；本文目標：通過爬取騰訊招聘網站招聘崗位，熟悉scrapy，並掌握資料庫儲存操作；一、準備工作 ♣ 基礎工作首先你要安裝S

bat腳本啟動exe並打開文件後退出 + 中文亂碼

找不到 echo code step 模板 blocks sta 輸入 off 寫了個腳本用於復制模板到新的cpp文件。將腳本路徑加到環境變量裏，只需在cmd窗口輸入“new hdu 1419”，就會自動將模板拷貝到WORK_DIR下的hdu文件夾內一個名叫"1419.c

java利用WatchService實時監控某個目錄下的文件變化並按行解析（註：附源代碼）

tomcat啟動 interrupt extend red -name 利用 end eba tor 首先說下需求：通過ftp上傳約定格式的文件到服務器指定目錄下，應用程序能實時監控該目錄下文件變化，如果上傳的文件格式符合要求，將將按照每一行讀取解析再寫入到數據庫，解析完之

Scrapy爬取慕課網(imooc)所有課程數據並存入MySQL數據庫

start table ise utf-8 action jpg yield star root 爬取目標：使用scrapy爬取所有課程數據，分別為 1.課程名 2.課程簡介 3.課程等級 4.學習人數並存入MySQL數據庫（目標網址 http://www.imoo

利用scrapy爬取文件後並基於管道化的持久化存儲

相關推薦