scrapy 爬取淘寶商品評論資訊

阿新 • • 發佈：2018-12-24

爬蟲最後要達到的效果，是將某分類下，第一頁的所有商品的評論儲存至mysql中。
具體會儲存評論日期、評論id、評論內容、商品連結和商品id。
在這裡插入圖片描述

爬蟲部分程式碼

# -*- coding: utf-8 -*-
import scrapy
import re
import requests
import math
import json
from scrapy.loader import ItemLoader
from taobao_test.items import GoodsItem



class LianyiqunSpider(scrapy.Spider):
    name = 'lianyiqun'
    allowed_domains = ['item.taobao.com',
                       'rate.taobao.com',
                       's.taobao.com'
                       ]
    start_urls = [
        '這裡填寫要抓取的商品分類主頁連結'
    ]

    # 解析"連衣裙"分類頁面（第一頁商品）
    def parse(self, response):

        # 獲取儲存列表用的script標籤
        js_script = response.css('script::text')[4].extract()

        # 獲取儲存列表用的json
        g_page_config = re.findall('g_page_config = ([\s\S]*)g_srp_loadCss', js_script)[0]
        g_page_config_json = json.loads(g_page_config.strip()[0:-1])

        # 訪問商品連結
        auctions = g_page_config_json['mods']['itemlist']['data']['auctions']
        for a in auctions:
            yield scrapy.Request(url="http://" + a['detail_url'], callback=self.goods_detail)

    # 解析商品資訊
    def goods_detail(self, response):
        # 獲取到頁面渲染的第一個指令碼的資料結構
        first_js_script = response.css('script::text')[0].extract()

        # 正則匹配到g_config欄位
        g_config = re.findall('var g_config = ([\s\S]*)g_config\.tadInfo', first_js_script)[0]

        # 正則匹配，拿到頁面的評論url
        rate_counter_api = re.findall("rateCounterApi   : '//(.*)',", g_config)[0]

        # 訪問獲取評論的url
        rate_count_response = requests.get("http://" + rate_counter_api)

        # 獲取評論數量
        rate_count = re.findall('"count":(.*)}', rate_count_response.text)[0]

        # 拿到data_list_api_url，這個能夠匹配到域名
        data_list_api_url = response.css('#reviews::attr(data-listapi)').extract()[0]

        # 獲取到評論的url
        feed_rate_list_url = re.findall('//(.*)\?', data_list_api_url)[0]

        # 寶貝id
        auttion_num_id = re.findall('auctionNumId=([\d]*)&', data_list_api_url)[0]

        # 設定一個值，一頁獲取的評論數量
        page_size = 20

        # 計算一共有多少頁的評論
        pages = math.ceil(int(rate_count) / page_size)

        # 迭代一共有多少頁，然後分別請求每一頁評論
        for current_page_number in range(1, pages):
            yield scrapy.Request(url="http://" + feed_rate_list_url
                                     + "?auctionNumId=" + auttion_num_id
                                     + "&currentPageNum=" + str(current_page_number)
                                     + "&pageSize=" + str(page_size),
                                 callback=self.parse_rate_list)

    # 解析具體的評論
    def parse_rate_list(self, response):

        # 將響應資訊轉換成json格式
        goods_rate_data_json = json.loads(response.text.strip()[1:-1])

        # 獲取到具體的評論資訊，就是json資訊獲取
        comments = goods_rate_data_json['comments']

        for comment in comments:

            # ItemLoader方式
            goods_item_loader = ItemLoader(item=GoodsItem(), response=response)

            # 評論時間
            goods_item_loader.add_value('date', comment['date'])
            # 評論id
            goods_item_loader.add_value('rate_id', comment['rateId'])
            # 評論內容
            goods_item_loader.add_value('content', comment['content'])
            auction = comment['auction']
            # 商品的連結地址
            goods_item_loader.add_value('link', auction['link'])
            # 商品id
            goods_item_loader.add_value('auc_num_id', auction['aucNumId'])

            yield goods_item_loader.load_item()

items程式碼

# -*- coding: utf-8 -*-

import scrapy
from scrapy.loader.processors import MapCompose
from scrapy.loader.processors import Join

def parse_field(text):
    return str(text).strip()

class TaobaoTestItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    pass

class GoodsItem(scrapy.Item):

    # 評論時間
    date = scrapy.Field(
        input_processor=MapCompose(parse_field),
        output_processor=Join(),
    )

    # 評論id
    rate_id = scrapy.Field(
        input_processor=MapCompose(parse_field),
        output_processor=Join(),
    )

    # 評論內容
    content = scrapy.Field(
        input_processor=MapCompose(parse_field),
        output_processor=Join(),
    )

    # 商品連結
    link = scrapy.Field(
        input_processor=MapCompose(parse_field),
        output_processor=Join(),
    )

    # 商品id
    auc_num_id = scrapy.Field(
        input_processor=MapCompose(parse_field),
        output_processor=Join(),
    )

    def get_insert_sql(self):
        insert_sql = """
            insert into rate(date,rate_id,content,link,auc_num_id)
            values (%s,%s,%s,%s,%s)
        """

        params = (self["date"], self["rate_id"], self["content"], self["link"], self["auc_num_id"])

        return insert_sql, params

main程式碼

#coding:utf-8
from scrapy.cmdline import execute

import sys
import os

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

execute(["scrapy", "crawl", "lianyiqun"])

pipelines程式碼

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import codecs
import json
import MySQLdb.cursors
from twisted.enterprise import adbapi
import pymysql


class TaobaoTestPipeline(object):
    def process_item(self, item, spider):
        return item


class JsonPipeline(object):

    def __init__(self):
        self.file = codecs.open("jsondata.json", "w", encoding="utf-8")

    def process_item(self, item, spider):
        lines = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(lines)
        return item

    def spider_close(self):
        self.file.close()

class writeMysql(object):
    def __init__(self):
        self.client = pymysql.connect(
            host='localhost',
            port=3306,
            user='root',
            passwd='123456',
            db='new_model',
            charset='utf8'
        )
        self.cur = self.client.cursor()

    def process_item(self, item, spider):
        insert_sql, params = item.get_insert_sql()
        self.cur.execute(insert_sql, params)
        self.client.commit()
        return item

    def handle_error(self, failure, item, spider):
        print(failure)

原始碼以上傳至git，可點選直接檢視git地址，有疑問的同學可提Issues或在部落格下方留言~

scrapy 爬取淘寶商品評論資訊

爬蟲最後要達到的效果，是將某分類下，第一頁的所有商品的評論儲存至mysql中。具體會儲存評論日期、評論id、評論內容、商品連結和商品id。爬蟲部分程式碼 # -*- coding: utf-8 -*- import scrapy import re import request

scrapy+selenium　爬取淘寶商城商品數據存入到mongo中

mage 通過 -c style settings 一個 arc lec less １．配置信息 # 設置mongo參數 MONGO_URI = ‘localhost‘ MONGO_DB = ‘taobao‘ #　設置搜索關鍵字 KEYWORDS=[‘小米手機‘,‘華為

Python3爬蟲爬取淘寶商品數據

表格 name 錯誤處理 from [0 https iat turn 感覺這次的主要的目的是從淘寶的搜索頁面獲取商品的信息。其實分析頁面找到信息很容易，頁面信息的存放都是以靜態的方式直接嵌套的頁面上的，很容易找到。主要困難是將信息從HTML源碼中剝離出來，數據和網頁源碼

使用selenium和pyquery來爬取淘寶ipad商品資訊

使用selenium爬取淘寶ipad商品資訊爬取過程中的重點是實現翻頁、提取商品資訊、儲存至資料庫訪問淘寶爬取過程中可以通過掃描二維碼的方式來登陸淘寶，要注意的是訪問不能過於頻繁，否則ip會被限制訪問。防止ip被限制訪問可以通過使用代理，或者降低訪問

Selenium+Scrapy爬取淘寶

好久不見，今天給大家分享如何用自動化工具selenium和scrapy框架來爬取淘寶。爬取網站時候的坑！剛開始爬的時候，就想著直接進入淘寶主頁，然後用selenium工具自動一步步執行然後爬取到自己想得到的資料，然而！令我沒想到的是，利用自動化工具可以對關鍵詞進

Python scrapy 爬取拉勾網招聘資訊

週末折騰了好久，終於成功把拉鉤網的招聘資訊爬取下來了。現在總結一下！環境： windows 8.1 + python 3.5.0 首先使用 scrapy 建立一個專案： E:\mypy> scrapy startproject lgjob 建立後目錄結構：

Python3 +Scrapy 爬取騰訊控股股票資訊存入資料庫中

目標網站：http://quotes.money.163.com/hkstock/cwsj_00700.html每支股票都有四個資料表找到這四個資料表的資訊所在資料名第一條到第三條資料所在其他三個表也是這樣子尋找，找到資料後，就可以動手爬取了。於2018\3\17 重寫。一.

Scrapy爬取淘寶網資料的嘗試

因為想學習資料庫，想要獲取較大量的資料，第一個想到的自然就是淘寶。。。。其中有大量的商品資訊，淘寶網反爬措施還是比較多，特別是詳情頁面還有噁心的動態內容該例子中使用Scrapy框架中的基礎爬蟲(CrawlSpider還有點沒搞清楚= = b) 先貼上整體程式碼 impo

Scrapy爬取拉勾網職位資訊

很多網站都用了一種叫做Ajax（非同步載入）的技術，通常我們會發現這種網頁，打開了，先給你看上面一部分東西，然後剩下的東西再慢慢載入，也就是區域性載入。所以你可以看到很多網頁，瀏覽器中的網址沒變，但是資料照樣是可以更新的。這對我們正確爬取資料造成了一定影響，我們

Scrapy爬取知名網站的圖書資訊

開啟虛擬環境，建立專案檔案開啟控制檯，輸入workon py3scrapy 進入虛擬環境所在盤（我的是E盤) 建立專案檔案，輸入scrapy startproj

爬蟲學習之18：使用selenium和chrome-headerless爬取淘寶網商品資訊（非同步載入網頁）

登入淘寶網，使用F12鍵觀察網頁結構，會發現淘寶網也是非同步載入網站。有時候通過逆向工程區爬取這類網站也不容易。這裡使用selenium和chrome-headerless來爬取。網上有結合selenium和PlantomJS來爬取的，但是最新版的Seleniu

比價網站的基礎-爬取淘寶的商品資訊

淘寶網站，頁面上有很多動態載入的AJAX請求，並且很多引數做過加密處理，如果直接分析網頁，會非常繁瑣，難度極大。本文利用selenium驅動chrome瀏覽器完成關鍵字輸入、搜尋、點選等功能，完成頁面的資訊的獲取，並利用pyquery庫進行解析，獲取商品資訊並將

python +selenium 爬取淘寶網商品資訊

前幾天用python爬取豆瓣關於電影《長城》的影評，發現豆瓣的網頁是靜態的，心中一陣竊喜。以為對於動態網頁瞭解的不是太多。但是主要是用cookie加headers爬取的。效果還不錯，爬取了六七萬條網友的評價，後期主要打算研究一下，如何發現那些使用者是水軍。今天研

Python爬蟲從入門到放棄（十八）之 Scrapy爬取所有知乎使用者資訊(上)

本文出自“python修行路”部落格，http://www.cnblogs.com/zhaof/p/7215617.html爬取的思路首先我們應該找到一個賬號，這個賬號被關注的人和關注的人都相對比較多的，就是下圖中金字塔頂端的人，然後通過爬取這個賬號的資訊後，再爬取他關注的人和被關注的人的賬號資訊，然後爬取被

使用 Scrapy 爬取去哪兒網景區資訊

Scrapy 是一個使用 Python 語言開發，為了爬取網站資料，提取結構性資料而編寫的應用框架，它用途廣泛，比如：資料探勘、監測和自動化測試。安裝使用終端命令 pip install Scrapy 即可。 Scrapy 比較吸引人的地方是：我們可以根據需求對其進行修改，它提供了多種型別的爬蟲基類，如：Ba

使用pyecharts繪製詞雲圖-淘寶商品評論展示

## 一、什麼是詞雲圖？詞雲圖是一種用來展現高頻關鍵詞的視覺化表達，通過文字、色彩、圖形的搭配，產生有衝擊力地視覺效果，而且能夠傳達有價值的資訊。製作詞雲圖的網站有很多，簡單方便，適合小批量操作。 BI軟體如Tableau、PowerBI也可以做，當然相比較web網站複雜一點。在程式設計方面，Ja

使用scrapy和selenium結合爬取淘寶資訊

首先，發現淘寶資訊是需要進行下拉載入資訊，否則商品資訊為空因此，在middleware.py中設定： class ScrapyseleniumspiderDownloaderMiddleware(object): # def __init__(self):

【原創】Python+Scrapy+Selenium簡單爬取淘寶天貓商品資訊及評論

（轉載請註明出處）哈嘍，大家好~前言：這次寫這個小指令碼的目的是為了給老師幫個小忙，爬取某一商品的資訊，寫完覺得這個程式似乎也可以用在更普遍的地方，所以就放出來給大家看看啦，然後因為是在很短時間寫的，所以自然有很多不足之處，想著總之實現了功能再說吧，程式碼太醜大不了之後再重構

scrapy結合selenium爬取淘寶等動態網站

ice 網站 -i war 原因 def exe imp span 1.首先創建爬蟲項目 2.進入爬蟲 class TaobaoSpider(scrapy.Spider): name = ‘taobao‘ allowed_domains = [‘taobao.c

scrapy+selenium 爬取淘寶

SM end nts items 參數 lang 組元 accept .get # -*- coding: utf-8 -*- import scrapy from scrapy import Request from urllib.parse import quote

scrapy 爬取淘寶商品評論資訊

相關推薦