使用scrapy框架爬取貓眼電影全部的頁碼並寫入資料庫

阿新 • • 發佈：2018-12-10

使用scrapy框架爬取貓眼電影爬取全部的頁數

import scrapy,re
from jobmaoyan.items import JobmaoyanItem
class MaoyanSpider(scrapy.Spider):
    name = 'maoyan_spider'
    allowed_domains=['maoyan.com']
    start_urls=['http://maoyan.com/films?showType=3']

    page_set=set()
    def parse(self, response):

        datalist = response.xpath("//dd")
        for data in datalist:
            item = JobmaoyanItem()
            item['title'] = data.xpath("div[@class='channel-detail movie-item-title']/a/text()").extract()[0]
            item['imgurl'] = data.xpath("div[@class='movie-item']/a[@target='_blank']/div[@class='movie-poster']/img[2]/@data-src").extract()[0]

            item['types'] = response.xpath("//li[@class='tags-line']/ul[@class='tags']/li[@class='active']/a[starts-with(@href,'javascript')]/text()").extract()[0]
            # print('==========================',item['types'])
            datail_url = "http://maoyan.com" + data.xpath("div[@class='movie-item']/a/@href").extract()[0]

            yield scrapy.Request(url=datail_url, callback=self.parse_detail, meta={"data": item})

	#獲取頁碼網址遞迴迴圈實現獲取全部的頁碼
        pageurls = response.xpath("//a[starts-with(@href,'?showType=3&offset=')]/@href").extract()
        for pageurl in pageurls:
            if pageurl in self.page_set:
                pass
            else:
                self.page_set.add(pageurl)
                purl = 'http://maoyan.com/films' + pageurl
                # print('------------------------',purl)
                yield scrapy.Request(url=purl, callback=self.parse)

    def parse_detail(self,response):

        item = response.meta['data']
        item["d_type"] = response.xpath("//div[@class='movie-brief-container']/ul/li[1]/text()").extract()[0]
        item["d_country"] = response.xpath("//div[@class='movie-brief-container']/ul/li[2]/text()").extract()[0]
        item['d_country'] = re.sub(r"\s", "", item['d_country'])
        item["d_stime"] = response.xpath("//div[@class='movie-brief-container']/ul/li[3]/text()").extract()[0]
        item["d_content"]=response.xpath("//div[@class='mod-content']/span[@class ='dra']/text()").extract()[0]
        item["comment1"]=response.xpath("//div[@class='comment-list-container']/ul/li[1]/div[@class='main']/div[@class='comment-content']/text()").extract()[0]
        item["comment2"]=response.xpath("//div[@class='comment-list-container']/ul/li[2]/div[@class='main']/div[@class='comment-content']/text()").extract()[0]
        item["comment3"]=response.xpath("//div[@class='comment-list-container']/ul/li[3]/div[@class='main']/div[@class='comment-content']/text()").extract()[0]

        yield item

寫入資料庫檔案pipelines_mysql 需要在setting中寫入pipelines_mysql檔案並放開

ITEM_PIPELINES = {
   # 'jobmaoyan.pipelines.JobmaoyanPipeline': 300,
   # 'jobmaoyan.pipelines_txt.JobmaoyanPipeline': 300,
   'jobmaoyan.pipelines_mysql.JobmaoyanPipeline': 300,
   # 'jobmaoyan.pipelines_json.JobmaoyanPipeline': 300,
   # 'jobmaoyan.pipelines_xls.JobmaoyanPipeline': 300,
   # 'jobmaoyan.pipelines_mongdb.JobmaoyanPipeline': 300,
}

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import pymysql

class JobmaoyanPipeline(object):
    def process_item(self, item, spider):
        db = pymysql.connect('127.0.0.1', "root", "123456", "jobbole")
        cursor = db.cursor()
        create_sql="create table if not exists catmovies(id int primary key auto_increment,types text,title text,imgurl text,type text,country text,stime text,content text,comment1 text,comment2 text,comment3 text)"
        cursor.execute(create_sql)
        insert_sql = "insert into catmovies values(0,'%s','%s','%s','%s','%s','%s','%s','%s','%s','%s')"%(item['types'],item['title'],item['imgurl'],item['d_type'],item['d_country'],item['d_stime'],item['d_content'],item["comment1"],item["comment2"],item["comment3"])
        try:
            cursor.execute(insert_sql)
            db.commit()
        except:
            db.rollback()

        cursor.close()
        db.close()

        return item

使用scrapy框架爬取貓眼電影全部的頁碼並寫入資料庫

使用scrapy框架爬取貓眼電影爬取全部的頁數 import scrapy,re from jobmaoyan.items import JobmaoyanItem class MaoyanSpider(scrapy.Spider): name = '

03_使用scrapy框架爬取豆瓣電影TOP250

前言：　　本次專案是使用scrapy框架，爬取豆瓣電影TOP250的相關資訊。其中涉及到代理IP，隨機UA代理，最後將得到的資料儲存到mongoDB中。本次爬取的內容實則不難。主要是熟悉scrapy相關命令以及理解框架各部分的作用。 1、本次目標　　爬取豆瓣電影TOP250的資訊，將得到的資料儲

Python爬取貓眼電影100榜並儲存到excel表格

首先我們前期要匯入的第三方類庫有; 通過貓眼電影100榜的原始碼可以看到很有規律如: 亦或者是: 根據規律我們可以得到非貪婪的正則表示式 """<

Scrapy爬取貓眼電影評論

Scrapy爬取貓眼電影評論文章目錄 Scrapy爬取貓眼電影評論 1、尋找評論介面 2、分析介面URL 介面URL規律構造URL介面分析JSON引數 3、Scrapy程式碼

python scrapy框架爬取豆瓣top250電影篇一代理編寫

爬蟲偽裝: UA中介軟體編寫 settings設定 from scrapy import signals import base64 import random class my_useragent(object): def process_req

python scrapy框架爬取豆瓣top250電影篇一儲存資料到mongogdb | mysql中

存到mongodb中環境 windows7 mongodb4.0 mongodb安裝教程設定具體引數在管道里面寫具體引數開啟settings 設定引數測試開始–結果程式碼 import pymongo from douban.

python scrapy框架爬取豆瓣top250電影篇一明確目標&&爬蟲編寫

1.明確目標 1.1在url上找到要爬取的資訊 1.2.確定了資訊,編寫items檔案 class DoubanItem(scrapy.Item): &nb

20170513爬取貓眼電影Top100

top compile bs4 etime http res XML n) quest import jsonimport reimport requestsfrom bs4 import BeautifulSoupfrom requests import RequestE

使用requests爬取貓眼電影TOP100榜單

esp 進行得到 ensure .com key d+ odin pickle 　　Requests是一個很方便的python網絡編程庫，用官方的話是“非轉基因，可以安全食用”。裏面封裝了很多的方法，避免了urllib/urllib2的繁瑣。　　這一節使用request

Requests+正則表達式爬取貓眼電影

movies core http status roc find apple ascii int 代碼: import re import json from multiprocessing import Pool import requests from reque

用scrapy框架爬取映客直播用戶頭像

xpath print main back int open for pri nbsp 1. 創建項目 scrapy startproject yingke cd yingke 2. 創建爬蟲 scrapy genspider live 3. 分析http://www.i

靜覓爬蟲學習筆記8-爬取貓眼電影

nal rip score item 之前 req exceptio pool html 　　不知道是不是我學習太晚的原因，貓眼電影這網站我用requests進行爬取源碼直接返回給我一個您的訪問被禁止。作為萌新的我登時就傻了，還好認真聽了之前的課，直接換selenium抓了

爬蟲（七）：爬取貓眼電影top100

all for rip pattern 分享爬取 values findall proc 一：分析網站目標站和目標數據目標地址：http://maoyan.com/board/4?offset=20目標數據：目標地址頁面的電影列表，包括電影名，電影圖片，主演，上映日期以

python爬蟲知識點總結（九）Requests+正則表達式爬取貓眼電影

bsp code item 代碼 proc action none width auth 一、爬取流程二、代碼演示 #-*- coding: UTF-8 -*- #_author:AlexCthon #mail:[email protected] #date:20

使用scrapy框架爬取蜂鳥論壇的攝影圖片並下載到本地

utf 賦值 col 異常處理創建文件夾 clas watermark follow ret 目標網站：http://bbs.fengniao.com/使用框架：scrapy 因為有很多模塊的方法都還不是很熟悉，所有本次爬蟲有很多代碼都用得比較笨，希望各位讀者能給處意見

scrapy框架爬取豆瓣讀書（1）

tin rap 豆瓣 pipe 網頁 xpath from lin tor 1.scrapy框架 Scrapy，Python開發的一個快速、高層次的屏幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛，可以用於數據挖掘、監測和自動化

python爬取貓眼電影top100排行榜

技術所有結果 mys url with 地址保存 pic 爬取貓眼電影TOP100(http://maoyan.com/board/4?offset=90)1). 爬取內容: 電影名稱，主演，上映時間，圖片url地址保存到mariadb數據庫中;2). 所有的圖片保

用Requests和正則表示式爬取貓眼電影(TOP100+最受期待榜）

目標站點分析目標站點（貓眼榜單TOP100）：如下圖，貓眼電影的翻頁offset明顯在URL中，所以只要搞定第一頁的內容加上一個迴圈加上offset就可以爬取前100。流程框架 1、抓取單頁內容利用requests請求目標站點，得到單個網頁HTML程式碼，返回結

自學python爬蟲（四）Requests+正則表示式爬取貓眼電影

前言學了requests庫和正則表示式之後我們可以做個簡單的專案來練練手咯！先附上專案GitHub地址，歡迎star和fork，也可以pull request哦~ 地址：https://github.com/zhangyanwei233/Maoyan100.git 正文開始哈哈哈

Python：scrapy框架爬取校花網男神圖片儲存到本地

爬蟲四部曲，本人按自己的步驟來寫，可能有很多漏洞，望各位大神指點指點 1、建立專案 scrapy startproject xiaohuawang scrapy.cfg: 專案的配置檔案 xiaohuawang/: 該專案的python模組。之後您將在此加入程

使用scrapy框架爬取貓眼電影全部的頁碼 並寫入資料庫

相關推薦

使用scrapy框架爬取貓眼電影全部的頁碼並寫入資料庫