Python3 Scrapy框架學習二：爬取豆瓣電影Top250

阿新 • • 發佈：2018-12-13

開啟專案裡的items.py檔案，定義如下變數，

import scrapy
from scrapy import Item,Field


class DoubanItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    movie = Field()
    year = Field()
    star = Field()
    vote = Field()
    quote = Field()

然後開啟專案裡的spiders資料夾內的doubanTop250.py檔案。

# -*- coding: utf-8 -*-
import scrapy
from douban.items import DoubanItem


class Doubantop250Spider(scrapy.Spider):
    name = 'doubanTop250'
    #allowed_domains = ['movie.douban.com/top250/']    這裡需要修改下，涉及爬取下一頁的關鍵
    allowed_domains = ['movie.douban.com']    
    start_urls = ['http://movie.douban.com/top250/']

    def parse(self, response):
        infos = response.css('.info')
        for info in infos:
            item = DoubanItem()
            item['movie'] = info.css('.title::text').extract_first().strip()
            item['year'] = info.css('div p[class = ""]::text').re_first('\d+') #正則的用法
            item['vote'] = info.css('.rating_num::text').extract_first().strip()
            item['star'] = info.css('.star span::text').extract()[-1].strip() #獲取最後一項
            item['quote'] = info.css('.inq::text').extract_first().strip()
            yield item

        next = response.css('.next a::attr("href")').extract_first()  #查詢下一頁的連結
        url = response.urljoin(next)
        yield scrapy.Request(url = url,callback = self.parse)    #解析下一頁

開啟settings.py檔案，加入如下兩行程式碼：

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
FEED_EXPORT_ENCODING = 'gbk'

然後在命令提示符輸入:

scrapy crawl doubanTop250 -o douban.csv

爬取結束後會生成一個csv檔案，效果圖如下：

Python3 Scrapy框架學習二：爬取豆瓣電影Top250

開啟專案裡的items.py檔案，定義如下變數， import scrapy from scrapy import Item,Field class DoubanItem(scrapy.Item): # define the fields for your it

Python3 Scrapy框架學習一：爬取貓眼Top100榜

以下操作基於Windows平臺。開啟CMD命令提示框：輸入如下命令：開啟專案裡的items.py檔案，定義如下變數，用於儲存。 class MaoyanItem(scrapy.Item): # define the fields for your

Python3 Scrapy框架學習三：爬取煎蛋網加密妹子圖片(全爬)

以下操作基於Windows平臺。開啟CMD命令提示框：新建一個專案如下：開啟專案裡的setting檔案，新增如下程式碼 IMAGES_STORE = './XXOO' #在當前目錄下新建一個XXOO資料夾 MAX_PAGE = 40 #定義爬取的總得頁數

Python3 Scrapy框架學習四：爬取的資料存入MongoDB

1. 新建一個scrapy專案： 2.使用PyCharm開啟該專案 3.在settings.py檔案中新增如下程式碼： #模擬瀏覽器，應對反爬 USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK

爬蟲學習之11：爬取豆瓣電影TOP250並存入資料庫

本次實驗主要測試使用PyMySQL庫寫資料進MySQL，爬取資料使用XPATH和正則表示式，在很多場合可以用XPATH提取資料，但有些資料項在網頁中沒有明顯特徵，用正則表示式反而反而更輕鬆獲取資料。直接上程式碼：from lxml import etree impo

Scrapy爬蟲（4）爬取豆瓣電影Top250圖片

在用Python的urllib和BeautifulSoup寫過了很多爬蟲之後，本人決定嘗試著名的Python爬蟲框架——Scrapy. 本次分享將詳細講述如何利用Scrapy來下載豆瓣電影Top250, 主要解決的問題有：如何利用ImagesPi

簡易爬蟲：爬取豆瓣電影top250

爬蟲目的說明：此爬蟲簡單到不能再簡單了，主要內容就是爬取豆瓣top250電影頁面的內容，然後將該內容匯入了資料庫。下面先上結果圖：爬蟲部分程式碼： def getlist(listurl, result): time.sleep(2

Python3 Scrapy框架學習五：使用crawl模板爬取豆瓣Top250，並存入MySql、MongoDB

1.新建專案及使用crawl模板 2.頁面解析 rules = (Rule(LinkExtractor(allow=r'subject/\d+/',restrict_css = '.hd > a[class = ""]'), callback='parse_it

案例學python——案例三：豆瓣電影資訊入庫一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用

　閒扯皮昨晚給高中的妹妹微信講題，函式題，小姑娘都十二點了還迷迷糊糊。今天凌晨三點多，被連續的警報聲給驚醒了，以為上海拉了防空警報，難不成地震，空襲？難道是樓下那個車主車子被堵了，長按喇叭？開窗看看，好像都不是。好鬼畜的警報聲，家裡也沒裝報警器啊，莫不成家裡煤氣漏了？起床循聲而查，報警

03_使用scrapy框架爬取豆瓣電影TOP250

前言：　　本次專案是使用scrapy框架，爬取豆瓣電影TOP250的相關資訊。其中涉及到代理IP，隨機UA代理，最後將得到的資料儲存到mongoDB中。本次爬取的內容實則不難。主要是熟悉scrapy相關命令以及理解框架各部分的作用。 1、本次目標　　爬取豆瓣電影TOP250的資訊，將得到的資料儲

【Python爬蟲】Scrapy框架運用1—爬取豆瓣電影top250的電影資訊(1)

一、Step step1: 建立工程專案 1.1建立Scrapy工程專案 E:\>scrapy startproject 工程專案 1.2使用Dos指令檢視工程資料夾結構 E:\>tree /f step2: 建立spid

【Python3爬蟲】Scrapy爬取豆瓣電影TOP250

今天要實現的就是使用是scrapy爬取豆瓣電影TOP250榜單上的電影資訊。步驟如下：一、爬取單頁資訊首先是建立一個scrapy專案，在資料夾中按住shift然後點選滑鼠右鍵，選擇在此處開啟命令列視窗，輸入以下程式碼： scrapy startprojec

[8]個人學習python：爬取豆瓣首頁所有圖片

程式碼如下：# -*- coding: utf-8 -* import urllib.request,socket,re,sys,os savepath=r'C:\\Users\\Administrator\\PycharmProjects\\untitled\\venv1\

scrapy爬取豆瓣電影top250

imp port 爬取 all lba item text request top 1 # -*- coding: utf-8 -*- 2 # scrapy爬取豆瓣電影top250 3 4 import scrapy 5 from douban.items i

爬蟲+詞雲：爬取豆瓣電影top100的導演制作圖雲

ray 爬取 open tex 下載頁面 down app zhong form 前段時間做了一個關於豆瓣電影的爬蟲，之後又寫了一個陳奕迅歌詞的詞雲制作，於是我想不如做一個關於豆瓣高分電影導演的詞雲試試，於是有了接下來這篇隨筆。首先，我需要知道豆瓣top100電影詳情頁面

Scrapy爬取豆瓣電影top250的電影數據、海報，MySQL存儲

p地址 rom gin ani char 代碼 pipeline print 關閉數據庫從GitHub得到完整項目（https://github.com/daleyzou/douban.git）1、成果展示數據庫本地海報圖片2、環境（1）已安裝Scrapy的Pycharm

Python開發簡單爬蟲之靜態網頁抓取篇：爬取“豆瓣電影 Top 250”電影數據

模塊歲月 python開發 IE 女人 bubuko status 公司使用目標：爬取豆瓣電影TOP250的所有電影名稱，網址為：https://movie.douban.com/top250 1）確定目標網站的請求頭：打開目標網站，在網頁空白處點擊鼠標右鍵，

python爬蟲實踐——零基礎快速入門（二）爬取豆瓣電影

爬蟲又稱為網頁蜘蛛，是一種程式或指令碼。但重點在於，它能夠按照一定的規則，自動獲取網頁資訊。爬蟲的基本原理——通用框架 1.挑選種子URL； 2.講這些URL放入帶抓取的URL列隊； 3.取出帶抓取的URL，下載並存儲進已下載網頁庫中。此外，講這些URL放入帶抓取UR

使用scrapy爬取豆瓣電影Top250

根據官方文件做的簡單練習，唯一遇到的問題就是爬取返回403.解決方法是在settings.py檔案中增加以下引數： USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Ch

scrapy ------ 爬取豆瓣電影TOP250

轉載自 —> 原文 #items.py # -*- coding: utf-8 -*- import scrapy class DoubanMovieItem(scrapy.Item): ranking = scrapy.Field() #排名 mo

Python3 Scrapy框架學習二：爬取豆瓣電影Top250

相關推薦