python：用scrapy爬去天貓評論

阿新 • • 發佈：2018-12-21

1，建立scrapy startproject tb

2 ， cd tb ,建立一個spider scrapy genspider 爬蟲名字網站域名

3, 在items中寫自己想爬的東西，這裡我爬的是評論，型號，使用者名稱

4，在pippelines.py寫儲存的方式我這裡寫的是資料夾

5，seting裡面開啟

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'

ROBOTSTXT_OBEY = False

DOWNLOAD_DELAY = 3

DOWNLOADER_MIDDLEWARES = {
   'tb.middlewares.SeleniumMiddlewares': 543,
}

ITEM_PIPELINES = {
   'tb.pipelines.TbPipeline': 300,
}

6 spdier.py 中

import scrapy
from scrapy import Request
import lxml.html
from tb.items import TbItem

class TaobaosSpider(scrapy.Spider):
    name = 'tianmao1'
    #allowed_domains = ['www.tianmao.com','detail.tmall.com']
    #@property
    def start_requests(self):
        base_url = "https://detail.tmall.com/item.htm?spm=a220m.1000858.1000725.7.3c3f2a68kywm0p&id=549984903510&skuId=3721826599822&areaId=410100&user_id=370627083&cat_id=2&is_b=1&rn=da3c446a634049bd41933f1cde5d6d1f"
        yield Request(url=base_url,callback=self.parse,dont_filter=True,meta={"page": "1"})
    #start_urls = ['https://detail.tmall.com/item.htm?spm=a220o.1000855.0.da321h.739b68c88QNKJE&id=565262586274&skuId=4029282759058']
    def parse(self,response):
        item = TbItem()
        tr_list = response.xpath('//div[@class="rate-grid"]/table/tbody/tr').extract()
        for tr in tr_list:
            html = lxml.html.fromstring(tr)
            pinglun = html.xpath('//td[@class="tm-col-master"]/div/div[1]/text()')[0]
            xinghao = html.xpath('//td[@class="col-meta"]/div/p/text()')[0]
            xingming = html.xpath('//td[@class="col-author"]/div/text()')[0]
            #time = html.xpath('//td[@class="tm-col-master"]/div[@class="tm-rate-date"]/text()')[0]
            item["pinglun"]=pinglun
            item["xianghao"]=xinghao
            item["xingming"]=xingming
            #item["time"]=time
            yield item
        yield Request(url="http://www.baidu.com",callback=self.parse,meta={"page": "2"},dont_filter=True)
7，在middlewares.py填寫

class SeleniumMiddlewares(object):
    def __init__(self):
        self.options = Options()
        #self.options.add_argument('-headless')
        self.browser = webdriver.Chrome(executable_path="F:\第七重新爬蟲\day06\day06全天\ziliao\chromedriver.exe",chrome_options=self.options)
    def process_request(self,request,spider):
        if int(request.meta["page"]) == 1:
            self.browser.get(request.url)
            time.sleep(5)
            for y in range(10):
                self.browser.execute_script("window.scrollBy(0,220)")
                time.sleep(3)
            pages = self.browser.find_element_by_xpath('//li/a[@href="#J_Reviews"]')
            pages.click()
            time.sleep(5)
            return HtmlResponse(url=self.browser.current_url,body=self.browser.page_source,request=request,encoding="utf-8")

        if int(request.meta["page"]) == 2:
            for y in range(20):
                self.browser.execute_script("window.scrollBy(0,200)")
                time.sleep(3)
            pages = self.browser.find_element_by_link_text("下一頁>>")
            self.browser.execute_script("arguments[0].click();", pages)
            #pages.click()
            return HtmlResponse(url=self.browser.current_url, body=self.browser.page_source, request=request,encoding="utf-8")

這裡用的Selenium模擬點選評論連結獲取頁面傳給spdier然後解析

8 ,啟動爬蟲 scrapy crawl 爬蟲名

python：用scrapy爬去天貓評論

1，建立scrapy startproject tb 2 ， cd tb ,建立一個spider scrapy genspider 爬蟲名字網站域名 3, 在items中寫自己想爬的東西，這裡我爬的是評論，型號，使用者名稱 4，在pippeli

scrapy 爬取天貓商品資訊

spider # -*- coding: utf-8 -*- from urllib.parse import urlencode import requests import scrapy import re import json from ..items import TmallItem co

經典爬蟲：用Scrapy爬取百度股票

前言今天我們編寫一個用 Scrapy 框架來爬取百度股票的程式碼，之前寫過一篇爬取百度股票的文章（點我），程式碼的邏輯和這篇文章的邏輯是一樣的，用到的解析器不同罷了。 Scrapy 爬蟲框架 Scrapy 爬蟲框架是由 7+2 的結構構成：引擎

如何爬取天貓評論資料

（本文原作於2016年3月5日，有刪改）一、原理首先在瀏覽器位址列中輸入https://www.tmall.com/開啟天貓商城，任意檢索某一商品，以奶粉為例，搜尋結果如下圖所示：任意點開其中的某個商品：這是我們常見的網頁，由文字、圖

教你分分鐘學會用python爬蟲框架Scrapy爬取你想要的內容

python 爬蟲 Scrapy python爬蟲教你分分鐘學會用python爬蟲框架Scrapy爬取心目中的女神 python爬蟲學習課程，下載地址：https://pan.baidu.com/s/1v6ik6YKhmqrqTCICmuceug 課程代碼原件：課程視頻：教你分分鐘學會用py

Python網路爬蟲實戰：抓取和分析天貓胸罩銷售資料

本文實現一個非常有趣的專案，這個專案是關於胸罩銷售資料分析的。Google曾給出了一幅世界女性胸部尺寸分佈地圖，從地圖中可以明顯看出中國大部分地區呈現綠色（表示平均胸部尺寸為A罩杯），少部分地區呈現藍色（表示平均胸部尺寸為B罩杯）現在李寧老師也來驗證一下這個

資料視覺化三步走（一）：資料採集與儲存，利用python爬蟲框架scrapy爬取網路資料並存儲

前言最近在研究python爬蟲，突然想寫部落格了，那就寫點東西吧。給自己定個小目標，做一個完整的簡單的資料視覺化的小專案，把整個相關技術鏈串聯起來，目的就是為了能夠對這塊有個系統的認識，具體設計思路如下： 1. 利用python爬蟲框架scr

教你分分鐘學會用python爬蟲框架Scrapy爬取心目中的女神

Scrapy，Python開發的一個快速,高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試。 Scrapy吸引人的地方在於它是一個框架，任何人都可以根據需求方便的修改。它也提供了多種型別爬蟲

初學python：用簡單的爬蟲爬取豆瓣電影TOP250的排名

一開始接觸到python語言，對它沒什麼瞭解。唯一知道的就是它可以用來寫爬蟲，去爬取網路上的資源。爬蟲是一種按照一定的規則，自動地抓取網路上的資訊的程式或者指令碼。所以當我對python有一定的瞭解後，我就想個寫個爬蟲來試試手。於是就有了這篇文章，用簡單的爬蟲爬取豆瓣電影TO

通過爬取天貓商品評論例項分析Python爬取ajax動態生成的資料

本文主要通過爬取天貓商品kindle的評論為例來說明利用python爬取ajax動態生成的資料的方式，本文使用的工具如下：工具 chrome瀏覽器【尋找評論的動態連結】 python3.5【執行程式碼】 mysql【儲存爬蟲獲得

python：用setup.py安裝第三方包packages

span 步驟 tex size 三方 href target stat data python：用setup.py安裝第三方包packages 原創 2016年12月10日 15:17:56 標簽： python 8531 這

用scrapy爬取搜狗Lofter圖片

request index import rap .so 圖片 file loader clas 用scrapy爬取搜狗Lofter圖片 # -*- coding: utf-8 -*- import json import scrapy from scrapy.http

用scrapy爬取京東商城的商品信息

keywords XML 1.5 rom toc ons lines open 3.6 軟件環境： 1 gevent (1.2.2) 2 greenlet (0.4.12) 3 lxml (4.1.1) 4 pymongo (3.6.0) 5 pyO

用scrapy爬取京東的數據

identify allow 9.png spider main %d 網頁 pro fyi 本文目的是使用scrapy爬取京東上所有的手機數據,並將數據保存到MongoDB中。一、項目介紹主要目標 1、使用scrapy爬取京東上所有的手機數據 2、將爬取的數據

python：用Redis完成發布和訂閱數據

sage host cal ins ESS div 安裝 def lis 安裝： pip install redis 　　發布文件： # coding:utf-8 import redis import json class RedisHelper():

教你用 Python 多執行緒爬京東商城商品評論（代理ip請閱讀上一篇）

爬蟲永不停息最近改進上一篇的爬蟲，不爬豆瓣了，改爬一爬京東評論，先放幾張圖研究看看先。研究了一下，發現商品的id就是連結.html前面的數字。我們把它複製貼上下拉 1,對上一篇的代表進行修改和新增 class Spider(): def

python ：通過爬蟲爬取資料（1）

(1)通過url爬取網頁資料 import urllib.request #指定url url ="https://www.baidu.com" #向伺服器發起請求，返回響應的資料，通過infor接收 infor = urllib.request.urlopen(url)

用 scrapy 爬取 xml 源

1.建立專案資料夾：scrapy startproject myxml 2.編輯 items 檔案，定義要儲存的結構化資料 3.建立一個爬蟲檔案用於分析 XML 源： 1)scrapy genspider -l 先查詢可使用爬蟲模板檔案 2)scrapy genspider -t x

用scrapy爬取京東的資料

# -*- coding: utf-8 -*- import scrapy from ..items import JdphoneItem import sys reload(sys) sys.setdefaultencoding("utf-8") class JdSpider(scrapy.Spid

用scrapy爬取有用的免費的西刺代理

爬蟲為什麼要使用代理伺服器？可以總結為以下幾點： 1.我們在使用python爬蟲爬取一個網站時，通常會頻繁訪問該網站。網站的反爬蟲技術就會檢某一段時間某個IP的訪問次數，如果訪問次數過多，它就會禁用你的IP，所以我們可以設定一些代理伺服器來幫助你做工作，每隔一段時間

python：用scrapy爬去天貓評論

相關推薦