用Scrapy寫爬蟲

阿新 • • 發佈：2018-12-22

一、scrapy專案的目錄結構

包括了一個spiders資料夾，以及__init__.py、items.py、pipelines.py、settings.py等python檔案。

items.py是爬蟲專案的資料容器檔案，用來定義我們要獲取的資料。
pipelines.py 是爬蟲專案的管道檔案，用來對items裡面定義的資料進行進一步的加工與處理。
settinng.py是專案的設定檔案。
spiders資料夾下面放置的是爬蟲部分相關的檔案。

二、spider的編寫

1.建立專案

在命令列中輸入scrapy startproject 專案名，如下我建立了一個名為mypjt1的scrapy爬蟲專案

PS D:\學習資料及空間> scrapy startproject mypjt1
New Scrapy project 'mypjt1', using template directory 'd:\\users\\administrator\\anaconda3\\lib\\site-packages\\scrapy\\templates\\project', created in:
    D:\學習資料及空間\mypjt1

2.items的編寫

import scrapy


class Mypjt1Item(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()

3.spider的編寫

在爬蟲專案中通過genspider命令建立一個爬蟲檔案，然後我們在對該爬蟲檔案進行相應的修改與編寫。

在命令列中切換到相應的專案目錄下，然後輸入scrapy genspider -t 模板新爬蟲名爬取的域名

PS D:\學習資料及空間> cd mypjt1
PS D:\學習資料及空間\mypjt1> scrapy genspider -t basic myspd sina.com.cn
Created spider 'myspd' using template 'basic' in module:
  mypjt1.spiders.myspd

開啟後，該檔案的預設程式碼為

# -*- coding: utf-8 -*-
import scrapy


class MyspdSpider(scrapy.Spider):
    name = 'myspd'
    allowed_domains = ['sina.com.cn']
    start_urls = ['http://sina.com.cn/']

    def parse(self, response):
        pass

name 是爬蟲的名稱，此時我的爬蟲名稱為myspd，allowed_domains代表的是允許爬行的域名， start_urls代表的是爬行的起始網址， parse方法是處理Scrapy爬蟲爬行到的網頁響應預設方法，該方法可以對響應進行處理和返回處理後的資料，在該屬性中，我們可以定義多個起始網址，中間用逗號隔開。

進行簡單的修改後：

# -*- coding: utf-8 -*-
import scrapy
from mypjt1.items import Mypjt1Item

class MyspdSpider(scrapy.Spider):
    name = 'myspd'
    allowed_domains = ['sina.com.cn']
    start_urls = (
        'http://sina.com.cn/',
        'https://mil.news.sina.com.cn/'
    )

    def parse(self, response):
        item = Mypjt1Item()
        item['title'] = response.xpath("/html/head/title").extract()
        print(item['title'])

我們的提取方式是Xpath,Xpath學習網址：http://www.w3school.com.cn/xpath/index.asp

4.執行

輸入及相應的輸出結果

PS D:\學習資料及空間\mypjt1> scrapy crawl myspd --nolog
['<title>軍事頻道_最多軍迷首選的軍事門戶_新浪網</title>']
['<title>新聞中心首頁_新浪網</title>']

5.對爬取的資料進行進一步的加工

這時候我們用到了pipelines.py檔案，但在這之前我們應該對settings.py檔案配置。

# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
#ITEM_PIPELINES = {
#    'mypjt1.pipelines.Mypjt1Pipeline': 300,
#}

將預設配置修改如下：

# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   'mypjt1.pipelines.Mypjt1Pipeline': 300,
}

編寫pipelines.py檔案將爬取的資料儲存到mydata.txt檔案中

# -*- coding: utf-8 -*-
import codecs
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html


class Mypjt1Pipeline(object):
    def __init__(self):
        #初始化，開始時呼叫，開啟一個檔案用於儲存爬取到的資料
        self.file = codecs.open('D:\\python35\\crawler\\mydata.txt',"wb",encoding="utf-8")

    #是pipeline的主要處理方法，預設會自動呼叫
    def process_item(self, item, spider):
        l = str(item) + '\n'
        #寫入到相應的檔案中
        self.file.write(l)
        return item

    #close_spider()方法一般在關閉蜘蛛時呼叫
    def close_spider(self):
        #關閉檔案
        self.file.close()

之後在myspd,py的parse方法加上yield item如下

    def parse(self, response):
        item = Mypjt1Item()
        item['title'] = response.xpath("/html/head/title").extract()
        print(item['title'])
        yield item

執行之後結果

用Scrapy寫爬蟲

一、scrapy專案的目錄結構標目結構包括了一個spiders資料夾，以及__init__.py、items.py、pipelines.py、settings.py等python檔案。 items.py是爬蟲專案的資料容器檔案，用來定義我們要獲取的資

用Python寫爬蟲（1）

一、網路爬蟲與搜尋引擎的關係爬蟲相當於眼睛和耳朵，是收集資料的。引擎相當於大腦，是理解和處理資料的。搜尋引擎大致可分為四個子系統：下載系統、分析系統、索引系統、查詢系統。而爬蟲只是下載系統上圖是搜尋引擎的一

用 python 寫爬蟲爬取得資料儲存方式

mysql：首先配置檔案： ITEM_PIPELINES = { firstbloodpro.pipelines.MysqlproPipeline:300},配置好管道第二配置好所需要的使用者名稱等 HOST='localhost' POST=3306 USE

用scrapy建立爬蟲專案

建立專案和爬蟲: 1.建立專案:`scrapy startproject [爬蟲的名字]` 2.建立爬蟲:進入到專案所在的路徑,執行命令:`scrapy genspider [爬蟲名字] [爬蟲的域名]注意：爬蟲名字不能和專案名稱一致專案目錄結構: 1. Items.py:用來存放爬蟲爬取下來

用 Python 寫爬蟲時應該注意哪些坑

1. 新增user-agent，header。避免一開始就被遮蔽掉。推薦用urllib2，requests(最近才用這個，發現很好用) 2. 編碼用utf-8，本地儲存的時候用codes.open 來儲存中文字元 3. lxml解析的速度要比beautifulsoup快的多 4. 如果beautiful和l

用python寫爬蟲的一些技巧：進階篇

以前寫過一篇使用python爬蟲抓站的一些技巧總結，總結了諸多爬蟲使用的方法；那篇東東現在看來還是挺有用的，但是當時很菜（現在也菜，但是比那時進步了不少），很多東西都不是很優，屬於”只是能用”這麼個層次。這篇進階篇打算把“能用”提升到“用得省事省心”這個層次

WSWP（用python寫爬蟲）筆記二：實現連結獲取和資料儲存爬蟲

前面已經構建了一個獲取連結的爬蟲模組，現在繼續完善這個爬蟲。分析網頁要對一個網頁中的資料進行提取，需要先對網頁的結構有一個大體的瞭解，通過在瀏覽器檢視網頁原始碼的方法就能實現。在瞭解到網頁的結構後，接下來便是獲取自己想要的資料了，個人比較喜歡用C

用py寫爬蟲，去爬csdn，完美解決403 Forbidden問題

#coding:utf-8 ''' Created on 2012-6-25 @author: lzs ''' import random import socket import urllib2 import cookielib ERROR = { '0':'Can not open

用Swing寫個scrapy爬蟲圖形介面 Ⅱ

因為eclipse上沒有matisse form，所以不好再次修改我上次寫的圖形介面，所以呢，下了個Myeclipse，使用matisse form重新寫了下此爬蟲的GUI。主要程式碼： /* * scs.java * * Created on

python采用多進程/多線程/協程寫爬蟲以及性能對比，牛逼的分分鐘就將一個網站爬下來!

分配返回 afa 一個同方 except erer 簡單 direct 首先我們來了解下python中的進程，線程以及協程！從計算機硬件角度：計算機的核心是CPU，承擔了所有的計算任務。一個CPU，在一個時間切片裏只能運行一個程序。從操作系統的角度：進程

用python零基礎寫爬蟲--編寫第一個網絡爬蟲

等待客戶端瀏覽器身份驗證 1.2 不存在 ssp 地址執行c ade 首先要說明的是，一下代碼是在python2.7版本下檢測的一.最簡單的爬蟲程序 --下載網頁 import urllib2 request=urllib2.Request("http://www.

用Node.js寫爬蟲，擼羞羞的圖片

獲取 header pro 步驟 data 以及主體數據描述　　說到爬蟲，很多人都認為是很高大上的東西。哇塞，是不是可以爬妹紙圖啊，是不是可以爬小片片啊。答案就是對的。爬蟲可以完成這些東西的操作。但是，作為一個正直的程序員，我們要在法律允許範圍內用爬蟲來為

Python用Scrapy爬蟲報錯UnicodeEncodeError: 'gbk' codec can't encode character '\u2022' ，解決方案

錯誤：UnicodeEncodeError: 'gbk' codec can't encode character '\u2022' in position 7: illegal multibyte sequence 解決：import io import sys sys.st

《用Python寫網路爬蟲》第一章踩坑

教程使用環境為pyhon2.x，使用python3.x進行學習時遇到一些坑，記錄下解決辦法。由於python2.x中的urllib2模組在3.x中被整合到了urllib模組中，教程中涉及urllib2的部分的程式碼需調整 p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; f

經典爬蟲：用Scrapy爬取百度股票

前言今天我們編寫一個用 Scrapy 框架來爬取百度股票的程式碼，之前寫過一篇爬取百度股票的文章（點我），程式碼的邏輯和這篇文章的邏輯是一樣的，用到的解析器不同罷了。 Scrapy 爬蟲框架 Scrapy 爬蟲框架是由 7+2 的結構構成：引擎

用 Python 寫網路爬蟲第2版

內容簡介暢銷的 Python 網路爬蟲開發實戰圖書全新升級版，上一版年銷量近 40000 冊。針對 Python 3.6 版本編寫。 Internet 上包含了許多有用的資料，其中大部分是可以免費公開訪問的。但是，這些資料不容易使用，它們內嵌在網站的架構和樣式中，在提取時也需要多加小心。網

用webmagic寫一個簡單的網路爬蟲

用webmagic寫一個網路爬蟲（不是註解）引入的jar包：具體程式碼如下： import java.io.File; import java.io.FileNotFoundException; import java.io.FileOutputStream; import

用Python寫網絡爬蟲（高清版）PDF

頁面逆向網上編程語言線程 ajax 是什麽保護 term 用Python寫網絡爬蟲（高清版）PDF百度網盤鏈接：https://pan.baidu.com/s/1kdRFAEuze-A9ToWVXHoCXw 提取碼：8ib1 復制這段內容後打開百度網盤手機App，

《用Python寫網路爬蟲》下載

2018年11月01日 13:27:27 qq_43576443 閱讀數：5 標籤：程式設計資料

用nodejs寫簡單爬蟲抓取https淘寶頁面

2016-09-23 周海漢 2016.9.23 淘寶有很多反爬措施。其中https就是反爬措施之一。一般的支援http協議的爬取失效了。 nodejs 是採用google V8引擎寫成的javascript後臺框架。自從有

用Scrapy寫爬蟲

相關推薦