資料視覺化三步走（一）：資料採集與儲存，利用python爬蟲框架scrapy爬取網路資料並存儲

阿新 • • 發佈：2019-01-10

前言

最近在研究python爬蟲，突然想寫部落格了，那就寫點東西吧。給自己定個小目標，做一個完整的簡單的資料視覺化的小專案，把整個相關技術鏈串聯起來，目的就是為了能夠對這塊有個系統的認識，具體設計思路如下：
1. 利用python爬蟲框架scrapy爬取網路資料並存儲到mysql中;
2. 利用springboot mybatis 作為web後臺服務;
3. 利用thymeleaf模板引擎 +echarts完成資料視覺化。

本章節完成第1點

1.Windows下搭建python環境

下載python3.6.4並安裝，注意：為了方便，一定要安裝pip模組和加入環境變數：
這裡寫圖片描述

命令列執行python檢視是否安裝成功：
這裡寫圖片描述

2.利用virtualenv建立虛擬環境，並安裝scrapy框架

安裝virtualenv: pip install virtualenv
新建資料夾PythonENV(自己隨便建，虛擬環境目錄)，用於建立虛擬環境
建立虛擬環境env22：命令列cd 到PythonENV下，執行命令virtualenv env22
啟用env22：進入到env22\Scripts\下執行命令activate
如上圖，啟用後出現(env22)的字首，說明目前已經啟用成功並處於虛擬環境env22下，接下來我們就要在虛擬環境env22中安裝scrapy了，執行命令：pip install Scrapy

這裡遇到個問題：

安裝win32api模組：pip install pywin32
還需要將如下DLL拷貝到System32下：
建立Scrapy專案：Scrapy startproject mydemo
將建立好的專案匯入pycharm，結構如下：

至此，環境搭建和scrapy專案架構基本就完成了！

3. 編寫spider爬蟲，爬取豆瓣資料

1.items.py中定義豆瓣物件類，用於資料抽象封裝:

class DouBanItem(scrapy.Item):
    # define the fields for your item here like: 

    # name = scrapy.Field()
    movie_title = scrapy.Field()
    movie_score = scrapy.Field()
    movie_eval_num = scrapy.Field()
    movie_quote = scrapy.Field()

2.編寫spider，用於爬取豆瓣資料:

# encoding:utf-8

from scrapy.http import Request
from scrapy.spiders import CrawlSpider, Rule
from scrapy.selector import Selector
from mydemo.items import DouBanItem

class DouBanSpider(CrawlSpider):
    name = "douban"
    allowed_domains = ["movie.douban.com"]
    start_urls = ["https://movie.douban.com/top250"]
    #
    # rules = (
    #     # 將所有符合正則表示式的url加入到抓取列表中
    #     Rule(LinkExtractor(allow=(r'https://movie\.douban\.com/top250\?start=\d+&filter=&type=',))),
    #     # 將所有符合正則表示式的url請求後下載網頁程式碼, 形成response後呼叫自定義回撥函式
    #     # 其實就是列表頁每一部電影的詳情頁面
    #     Rule(LinkExtractor(allow=(r'https://movie\.douban\.com/subject/\d+',)), callback='parse_page', follow=True),
    # )

    def parse(self, response):
        doubanItem = DouBanItem()
        selector = Selector(response)
        movies = selector.xpath('//ol[@class="grid_view"]/li')

        for m in movies:
            # 電影名稱
            doubanItem['movie_title'] = m.xpath('div/div[2]/div[1]/a/span[1]/text()').extract()[0]
            # 電影評分
            doubanItem['movie_score'] = m.xpath('div/div[2]/div[2]/div/span[2]/text()').extract()[0]
            # 電影評價人數
            doubanItem['movie_eval_num'] = m.xpath('div/div[2]/div[2]/div/span[4]/text()').extract()[0][:-3]
            # movie_eval_num = re.findall(r'\d+', movie_eval)[-1]  # 用切片也可以
            # 電影短評 可能為空，發現不加[0] 也可以
            movie_quote = m.xpath('div/div[2]/div[2]/p[2]/span/text()')[0]
            if movie_quote:
                doubanItem['movie_quote'] = movie_quote.extract()
            else:
                doubanItem['movie_quote'] = ''

            yield doubanItem

        for p in range(9):  # 第2頁到第10頁
            url_ = "https://movie.douban.com/top250?start={}&filter=".format(str((p+1)*25))
            yield Request(url_, self.parse)

3.修改配置檔案settings.py，增加user_agent，禁用robot協議，以防止被禁

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = ['Mozilla/5.0 (Windows NT 10.0; WOW64; rv:46.0) Gecko/20100101 Firefox/46.0',
              'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
              'Chrome/42.0.2311.135 Safari/537.36 Edge/12.10240']

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

4.資料儲存

1.設定mysql資料來源（這是我本地的mysql）：

# db configure
MYSQL_HOST = 'localhost'
MYSQL_DBNAME = 'python'
MYSQL_USER = 'root'
MYSQL_PASSWD = 'root'

2.編寫pipeline，用於處理爬取後返回的資料：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
from logging import log
import pymysql
from mydemo import settings


class MySqlPipeline(object):
    # 初始化資料庫
    def __init__(self):
        self.connect = pymysql.connect(
            host=settings.MYSQL_HOST,
            db=settings.MYSQL_DBNAME,
            user=settings.MYSQL_USER,
            passwd=settings.MYSQL_PASSWD,
            charset='utf8',
            use_unicode=True
        )
        # 通過cursor執行增刪查改
        self.cursor = self.connect.cursor()

    # 處理返回的item資料
    def process_item(self, item, spider):
        try:
            # 增加查重處理
            self.cursor.execute(
                """select * from t_movie where title = %s""",
                item['movie_title'])
            # 是否有重複資料
            repetition = self.cursor.fetchone()

            if repetition:
                pass
            else:
                # 插入資料
                self.cursor.execute(
                    """insert into t_movie (title,score,eval_num,m_quote)
                    values (%s, %s, %s, %s)""",
                    (item['movie_title'],
                     item['movie_score'],
                     item['movie_eval_num'],
                     item['movie_quote']))

                # 提交sql語句
                self.connect.commit()

        except Exception as error:
            # 出現錯誤時列印錯誤日誌
            log(error)

        return item

3.終端執行爬蟲，命令：scrapy crawl douban
這裡寫圖片描述
4.檢視mysql資料庫，資料已經儲存成功：

總結：

本文主要闡述了scrapy的安裝與使用，並完成了爬取資料的持久化，一些概念性的東西不再囉嗦，以後的文章也會著重關注實踐。下一節將完成Java web。

資料視覺化三步走（一）：資料採集與儲存，利用python爬蟲框架scrapy爬取網路資料並存儲

前言最近在研究python爬蟲，突然想寫部落格了，那就寫點東西吧。給自己定個小目標，做一個完整的簡單的資料視覺化的小專案，把整個相關技術鏈串聯起來，目的就是為了能夠對這塊有個系統的認識，具體設計思路如下： 1. 利用python爬蟲框架scr

資料視覺化三步走（二）：springboot整合mybatis 搭建Java Web

前言本章節完成第2點：利用springboot + mybatis 作為web後臺服務。 1.環境依賴 1.Win7 + Intellij IDEA 15.0.2 + JDK8 2.建立springboot專案

互動式資料視覺化－D3.js（四）形狀生成器

形狀生成器線段生成器 var linePath = d3.line() - 使用預設的設定構造一個 line 生成器。 linePath.x() - 如果指定了 x 則將 x 訪問器設定為指定的函式或數值並返回當前 line 生成器。如果沒有指定 x 則返回當前 x 訪問器，預設為: functi

vue Esview 視覺化程式設計程式流程（一）解決不能登入問題

esview的git地址： https://github.com/furioussoul/esview 下載後有兩個工程，一個是server，springboot伺服器端；一個是ui端 Ui端用npm install，npm run dev進行編譯，伺服器端用marven install

視覺化——matplotlib常用api（一）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

模擬Scratch的視覺化指令碼編輯器（一）

簡介兒童程式設計學習工具Scratch最先由麻省理工學院2007年就推出,目前谷歌正在與麻省理工合作開發下一代Scratch。由於喜歡Scratch的視覺化指令碼編輯方式，於是決定模擬做一個更為通用化的指令碼編輯模組，不僅僅用於兒童編輯學習，可以通過定製

Python資料視覺化-Matplotlib學習筆記（1）--折線圖為例畫圖入門

在使用Python做資料處理的時，大量的資料我們看起來並不是很直觀，有時候把它圖形化顯示反而更能容易的觀察資料的變化特徵等等。 Matplotlib是一個Python的2D繪相簿，它以各種硬拷貝格式和跨平臺的互動式環境生成出版質量級別的圖形。它提供了一整套

Python資料視覺化-Matplotlib學習筆記（3）--畫散點圖

這兩天數學建模中需要畫個散點圖，索性就把程式碼發上來吧，帖子嘛~當然是多多益善嘍資料是一千組x，y座標資料列印下head E:\Anaconda3\python.exe E:/Anac

資料結構之程式效能檢測（一）：三種排序演算法·對比

先上程式碼： #include<stdio.h> #include<time.h> # define MAX_SIZE 1001 void sort(int *a, int n); void sort2(int *a, int n)

【D3.js資料視覺化系列教程】--（二）最簡單的開始：新增元素

1. 新增元素語法：[selection].append("p"); 2. 怎麼做？將D3.js解壓到桌面，同時在桌面建立一個index.html<html> <head>

資料視覺化-svg入門基礎（二）

接上一篇：資料視覺化-svg入門基礎（一），基礎一主要是介紹了svg概念，元素樣式設定等。 svg是（scalable vector graphic）伸縮向量影象。一、目錄（1）圖形元素（2）文字元素（3）特殊元素（4）濾鏡元素（5）漸變元素二、圖形元素 1、矩

Matplotlib資料視覺化（7）：圖片展示與儲存

In [1]: import os import matplotlib.image as mpimg from PIL import Image import matplotlib.pyplot as plt import numpy as np import matplot

影象演算法（一）：最近鄰插值，雙線性插值，三次插值

最近在複習影象演算法，對於一些簡單的影象演算法進行一個程式碼實現，由於找工作比較忙，具體原理後期補上，先上程式碼。今天先給出最近鄰插值，雙線性插值，三次插值。 1.最近鄰插值原始圖中影響點數為1 （1）程式碼 # include<iostream>

資料探勘十大演算法（一）：決策樹演算法 python和sklearn實現

學完到第三章——決策樹，python程式碼實現的僅是ID3演算法，sklearn為優化過的C4.5，這裡做一個詳細的總結包括（原理、程式碼、視覺化、scikit-learn實現），皆為親自實踐後的感悟。以下進入正文。早前簡單瞭解了決策樹的原理，然後為了儘快使用便沒有深究直

演算法導論（一）：快速排序與隨機化快排

排序演算法是演算法學習的第一步，想當初我學的第一個演算法就是選擇排序，不過當時很長一段時間我都不清楚我到底用的是選擇還是冒泡還是插入。只記得兩個for一個if排序就完成了。再後來更系統地接觸演算法，才發現那才是排序演算法隊伍中小小而基本的一員。買的《演算

Apollo學習筆記（一）：canbus模組與車輛底盤之間的CAN資料傳輸過程

Apollo學習筆記（一）：canbus模組與車輛底盤之間的CAN資料傳輸過程博主現在從車載自組網通道分配和多跳路由轉向了自動駕駛，沒啥經驗，想快些做出來個Demo還是得站在巨人的肩膀上才行，我選擇了Apollo，主要還是支援國產而且它的開發者套件有現成的底盤可以直接跑起來，但是apollo

Django學習筆記（一）：環境安裝與簡單實例

rom dex ftime not host 名稱本機 turn perl Django學習筆記（一）：環境安裝與簡單實例通過本文章實現： Django在Windows中的環境安裝 Django項目的建立並編寫簡單的網頁，顯示歡迎語與當前時間一、環境安裝結合版

深度學習學習筆記（一）：logistic regression與Gradient descent 2018.9.16

寫在開頭：這是本人學習吳恩達在網易雲課堂上的深度學習系列課程的學習筆記，僅供參考，歡迎交流學習！一，先介紹了logistic regression，邏輯迴歸就是根據輸入預測一個值，這個值可能是0或者1,其影象是一條s形曲線，由預測值與真實值的差距計算出loss function損失函式和cos

深入淺出聊聊Kubernetes儲存（一）：詳解Kubernetes儲存關鍵概念

近年來一直關注雲端計算領域的人，必定知道Docker和Kubernetes的崛起。如今，世界範圍內的公有云巨頭（谷歌、亞馬遜、微軟、華為雲、阿里雲等等）都在其傳統的公共雲服務之上提供託管的Kubernetes服務。Kubernetes功能強大、擴充套件性高，在許多人看來，它正在成為

jQuery -- 光陰似箭（一）：初見 jQuery -- 基本用法，語法，選擇器

jQuery -- 知識點回顧篇（一）：初見jQuery -- 基本用法，語法，選擇器 1. 使用方法　　jQuery 庫位於一個 JavaScript 檔案中，其中包含了所有的 jQuery 函式。　　網頁需要使用到 jQuery 時，需要先在網頁中引入 jQuery 的 js檔案。

資料視覺化 三步走（一）：資料採集與儲存，利用python爬蟲框架scrapy爬取網路資料並存儲

前言

最近在研究python爬蟲，突然想寫部落格了，那就寫點東西吧。給自己定個小目標，做一個完整的簡單的資料視覺化的小專案，把整個相關技術鏈串聯起來，目的就是為了能夠對這塊有個系統的認識，具體設計思路如下：

本章節完成第1點

1.Windows下搭建python環境

2.利用virtualenv建立虛擬環境，並安裝scrapy框架

3. 編寫spider爬蟲，爬取豆瓣資料

4.資料儲存

總結：

本文主要闡述了scrapy的安裝與使用，並完成了爬取資料的持久化，一些概念性的東西不再囉嗦，以後的文章也會著重關注實踐。下一節將完成Java web。

相關推薦

資料視覺化三步走（一）：資料採集與儲存，利用python爬蟲框架scrapy爬取網路資料並存儲