Python3 + Scrapy 爬取豆瓣評分資料存入Mysql與MongoDB資料庫。

阿新 • • 發佈：2019-02-08

首先我們先抓包分析一下，可以看到我們想要的每一頁的全部資料都在"article"下。

而其中每一部的電影的資料可以看到在"info"下。

所以我們只要在info下找到自己的目標資料並想好匹配方法即可，本文使用的是xpath，其實也可以在spiders中匯入pyquery或者BeautifulSoup來進行匹配，當然正則也是可以的。現在我們去找到目標資料。

這些便是我們的目標資料，接下來便可以動手爬取了。

注意：有些目標資料有時候會為空，還有記得去掉資料中多餘的空格和換行。

1.編寫item

import scrapy

class MovieItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 電影名
    title = scrapy.Field()
    # 電影資訊
    movieInfo = scrapy.Field()
    # 評分
    star = scrapy.Field()
    # 影評
    quote = scrapy.Field()
    # 評分人數
    number = scrapy.Field()
    pass

2.編寫Spider

from scrapy.spiders import Spider
from scrapy.http import Request
from scrapy.selector import Selector

from Mycrawl.items import MovieItem
import requests
import time


class MovieSpider(Spider):
    # 爬蟲名字，重要
    name = 'movie'
    # 反爬措施
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
    url = 'https://movie.douban.com/top250'
    #start_urls = ['movie.douban.com']


    def start_requests(self):
        # url = 'https://movie.douban.com/top250'
        yield Request(self.url, headers=self.headers, callback=self.parse)


    def parse(self, response):
        item = MovieItem()
        selector = Selector(response)
        movies = selector.xpath('//div[@class="info"]')
        for movie in movies:
            name = movie.xpath('div[@class="hd"]/a/span/text()').extract()
            message = movie.xpath('div[@class="bd"]/p/text()').extract()
            star = movie.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').extract()
            number = movie.xpath('div[@class="bd"]/div[@class="star"]/span/text()').extract()
            quote = movie.xpath('div[@class="bd"]/p[@class="quote"]/span/text()').extract()
            if quote:
                quote = quote[0]
            else:
                quote = ''
            item['movie_name'] = ''.join(name)
            item['movie_message'] = ';'.join(message).replace(' ','').replace('\n','')
            item['movie_star'] = star[0]
            item['number'] = number[1].split('人')[0]
            item['movie_quote'] = quote
            yield item
        nextpage = selector.xpath('//span[@class="next"]/link/@href').extract()
        time.sleep(3)
        if nextpage:
            nextpage = nextpage[0]

            yield Request(self.url+str(nextpage), headers=self.headers, callback=self.parse)

3.編寫Piplines與資料庫進行連線

Mysql

import pymysql
import pymongo

'''
class MycrawlPipeline(object):
    def process_item(self, item, spider):
        return item
'''
class MoviePipeline(object):
    def __init__(self):
        # 連線資料庫
     self.conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='1likePython',
                                    db='TESTDB', charset='utf8')
        # 建立遊標物件
     self.cursor = self.conn.cursor()
        self.cursor.execute('truncate table Movie')
        self.conn.commit()

    def process_item(self, item, spider):
        try:
            self.cursor.execute("insert into Movie (name,movieInfo,star,number,quote) \
            VALUES (%s,%s,%s,%s,%s)", (item['movie_name'],item['movie_message'],item['movie_star'],
                                       item['number'], item['movie_quote']))
            self.conn.commit()
        except pymysql.Error:
            print("Error%s,%s,%s,%s,%s" % (item['movie_name'],item['movie_message'],item['movie_star'],
                                       item['number'], item['movie_quote']))
        return item

MongoDB

class MoviePipeline(object):
    def __init__(self):
        # 連線資料庫
     self.client = pymongo.MongoClient(host='127.0.0.1', port=27017)
        self.test = self.client['TESTDB']
        self.post = self.test['movie']
    def process_item(self, item, spider):
        data = dict(item)
        self.post.insert(data)
        return item

4.編寫setting

5.爬取存入Mysql資料庫

在爬蟲執行前需要建立資料庫表格，有兩種方法可以建立，一種是可以通過命令列進入資料庫輸入建立表命令建立；另一種是通過Python進行建立。

在這裡我說說第二種，建立一個.py檔案，然後在裡面編寫

import pymysql

db = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='你的密碼', db='TESTDB', charset='utf8')

cursor = db.cursor()

cursor.execute('DROP TABLE IF EXISTS BOOK')

sql = """CREATE TABLE BOOK(
          id INT NOT NULL PRIMARY KEY AUTO_INCREMENT COMMENT '自增 id',
          book_name VARCHAR(1024) NOT NULL COMMENT '小說名',
          author VARCHAR(1024) NOT NULL COMMENT '小說作者',
          book_type VARCHAR(1024) NULL NULL COMMENT '小說型別',
          book_state VARCHAR(1024) DEFAULT NULL COMMENT '小說狀態',
          book_update VARCHAR(1024) DEFAULT NULL COMMENT '小說更新',
          book_time VARCHAR(1024) DEFAULT NULL COMMENT '更新時間',
          new_href VARCHAR(1024) DEFAULT NULL COMMENT '最新一章',
          book_intro VARCHAR(1024) DEFAULT NULL COMMENT '小說簡介',
          createtime DATETIME DEFAULT CURRENT_TIMESTAMP COMMENT '新增時間'
          )"""

cursor.execute(sql)

db.close()

這樣，就完成了建立一個表了。

關於更多的Mysql資料庫操作命令，可以參考 http://blog.csdn.net/Mr_blueD/article/details/79344462

在建立的scrpay專案的資料夾下輸入

scrapy crawl movie（這個movie是我在Spider裡寫的爬蟲名）

6.結果

Mysql

Mongo

另有爬取起點小說網資料的Scrapy實戰，請前往 http://blog.csdn.net/Mr_blueD/article/details/79343349

Python3 + Scrapy 爬取豆瓣評分資料存入Mysql與MongoDB資料庫。

首先我們先抓包分析一下，可以看到我們想要的每一頁的全部資料都在"article"下。而其中每一部的電影的資料可以看到在"info"下。所以我們只要在info下找到自己的目標資料並想好匹配方法即可，本文使用的是xpath，其實也可以在spiders中匯入pyquery或者Bea

將scrapy爬蟲框架爬取到的資料存入mysql資料庫

使用scrapy爬取網站資料，是一個目前來說比較主流的一個爬蟲框架，也非常簡單。 1、建立好專案之後現在settings.py裡面把ROBOTSTXT_OBEY的值改為False，不然的話會預設遵循robots協議，你將爬取不到任何資料。 2、在爬蟲檔案裡開始寫

Python3 爬取51job的資料存入MongoDB並分析

1.開啟51job首頁，輸入Python，地址選擇深圳，得到搜尋頁面： 3.不同點： items.py新增如下程式碼： from scrapy import Item,Field class JobsItem(Item): # define the f

Python3 +Scrapy 爬取騰訊控股股票資訊存入資料庫中

目標網站：http://quotes.money.163.com/hkstock/cwsj_00700.html每支股票都有四個資料表找到這四個資料表的資訊所在資料名第一條到第三條資料所在其他三個表也是這樣子尋找，找到資料後，就可以動手爬取了。於2018\3\17 重寫。一.

【Python3爬蟲】Scrapy爬取豆瓣電影TOP250

今天要實現的就是使用是scrapy爬取豆瓣電影TOP250榜單上的電影資訊。步驟如下：一、爬取單頁資訊首先是建立一個scrapy專案，在資料夾中按住shift然後點選滑鼠右鍵，選擇在此處開啟命令列視窗，輸入以下程式碼： scrapy startprojec

scrapy爬取豆瓣電影top250

imp port 爬取 all lba item text request top 1 # -*- coding: utf-8 -*- 2 # scrapy爬取豆瓣電影top250 3 4 import scrapy 5 from douban.items i

Scrapy爬取豆瓣電影top250的電影數據、海報，MySQL存儲

p地址 rom gin ani char 代碼 pipeline print 關閉數據庫從GitHub得到完整項目（https://github.com/daleyzou/douban.git）1、成果展示數據庫本地海報圖片2、環境（1）已安裝Scrapy的Pycharm

python3爬蟲--爬取豆瓣Top250的圖書

from lxml import etree import requests import csv fp = open('doubanBook.csv', 'wt', newline='', encoding='utf-8') writer = csv.writer(fp) writer.

使用scrapy爬取豆瓣電影Top250

根據官方文件做的簡單練習，唯一遇到的問題就是爬取返回403.解決方法是在settings.py檔案中增加以下引數： USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Ch

scrapy ------ 爬取豆瓣電影TOP250

轉載自 —> 原文 #items.py # -*- coding: utf-8 -*- import scrapy class DoubanMovieItem(scrapy.Item): ranking = scrapy.Field() #排名 mo

Python3+Selenium爬取動態網頁資料

背景：有時候想獲取網頁的資訊，然後下載裡面的圖片資料等等遇到的問題：有時一些網頁是動態的，一些內容是通過js非同步拉取，甚至拉取時間是懶載入的，例如滾動到元素位置的時候才載入解決方案：這個時候就需要Selenium神器了 Selenium 是什麼？一句話

使用scrapy框架,用模擬瀏覽器的方法爬取京東上面膜資訊,並存入mysql,sqlite,mongodb資料庫

因為京東的頁面是由JavaScript動態載入的所以使用模擬瀏覽器的方法進行爬取,具體程式碼如下 : spider.py # -*- coding: utf-8 -*- import scrapy from scrapy import Request from jdpro.items

用scrapy爬取京東的資料

# -*- coding: utf-8 -*- import scrapy from ..items import JdphoneItem import sys reload(sys) sys.setdefaultencoding("utf-8") class JdSpider(scrapy.Spid

python爬蟲，Scrapy爬取豆瓣電影《芳華》電影短評，分詞生成詞雲圖。

專案github地址：https://github.com/kocor01/scrapy_cloud Python版本為3.6 自己寫的簡單架構《python爬蟲，爬取豆瓣電影《芳華》電影短評，分詞生成詞雲圖。》這個是用Scrapy框架重新實現的爬蟲

scrapy ------ 爬取豆瓣電影TOP250

轉載自 —> 原文 #items.py # -*- coding: utf-8 -*- import scrapy class DoubanMovieItem(scrapy.Item): ranking = scrapy.Field()

用Scrapy抓取豆瓣小組資料（一）

最近在coursera.org（線上學習平臺）上學SNA（Social Network Analysis，社交網路分析）。有興趣的同學可以去看一眼：https://class.coursera.org/sna-002/，課程講的很有意思，等回頭我上完全部課程打算再寫下

（8）Python爬蟲——爬取豆瓣影評資料

利用python爬取豆瓣最受歡迎的影評50條的相關資訊，包括標題,作者,影片名,影片詳情連結,推薦級,迴應數,影評連結,影評,有用數這9項內容，然後將爬取的資訊寫入Excel表中。具體程式碼如下： #!/usr/bin/python # -*- codin

python3 scrapy爬取微信公眾號及歷史資訊V1.0

環境： python3 scrapy 目的寫這篇文章主要是做一下紀念，畢竟是搞了快兩天的東西了，今天加大了量，使用scrapy爬取100多個微信公眾號，然後出現IP被封的情況下，當然了，這種情況並不是沒有辦法解決，只需要在scr

爬蟲實戰（一）——利用scrapy爬取豆瓣華語電影

爬蟲第一個專案是爬取豆瓣華語電影，後面將對這部分資料進行分析。本文也是發表於『運籌OR帷幄』微信公眾號的《用資料帶你瞭解電影行業—華語篇》的爬蟲介紹篇。 1. 爬取思路在觀察了豆瓣每個影片的連結地址後，寫下了主要思路：（1）在豆瓣電影的選片頁面，篩選所有華

scrapy爬取多頁資料

初始化一個專案新建一個爬蟲檔案要爬取的網頁 - 在a標籤上右鍵 copy >>> copy xPath 複製到剪下板的是如下內容 /html/body/div[2]/div[2]/div[1]/div[4]/u

Python3 + Scrapy 爬取豆瓣評分資料存入Mysql與MongoDB資料庫。

注意：有些目標資料有時候會為空，還有記得去掉資料中多餘的空格和換行。

1.編寫item

2.編寫Spider

3.編寫Piplines與資料庫進行連線

Mysql

MongoDB

4.編寫setting

5.爬取存入Mysql資料庫

6.結果

Mysql

Mongo

相關推薦