爬蟲專案：京東商品資料爬取

阿新 • • 發佈：2019-01-25

spider程式碼：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request
from jingdong.items import JingdongItem
import re
import urllib

class JdSpider(scrapy.Spider):
    name = 'jd'
    allowed_domains = ['jd.com']
    start_urls = ['http://jd.com/']

    def parse(self, response):
        key = "筆記本"
        search_url = "https://search.jd.com/Search?keyword=" + key + "&enc=utf-8&wq=" + key
        for i in range(1,101):
            page_url = search_url + "&page=" + str(i*2-1)
            yield Request(url=page_url,callback=self.next)
    def next(self,response):
        id = response.xpath('//ul[@class="gl-warp clearfix"]/li/@data-sku').extract()
        #print(id)
        for j in range(len(id)):
            ture_url = "https://item.jd.com/" + str(id[j]) + ".html"
            yield Request(url=ture_url,callback=self.next2)
    def next2(self,response):
        item = JingdongItem()
        item['title'] = response.xpath('//head/title/text()').extract()[0].replace('【圖片 價格 品牌 報價】-京東','').replace('【行情 報價 價格 評測】-京東','')
        item['link'] = response.url
        #價格抓包
        ture_id = re.findall(r'https://item.jd.com/(.*?).html',item['link'])[0]
        price_url = "https://p.3.cn/prices/mgets?skuIds=J_" + str(ture_id)
        price_txt = urllib.request.urlopen(price_url).read().decode('utf-8', 'ignore')
        item['price'] = re.findall(r'"p":"(.*?)"',price_txt)[0]
        #評論抓包
        comment_url = "https://club.jd.com/comment/productCommentSummaries.action?referenceIds=" + str(ture_id)
        comment_txt = urllib.request.urlopen(comment_url).read().decode('utf-8', 'ignore')
        item['comment'] = re.findall(r'"CommentCount":(.*?),"',comment_txt)[0]
        return item

pipline程式碼：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import pymysql.cursors

class JingdongPipeline(object):
    # 連線登入mysql，新建資料表
    def __init__(self):
        self.conn = pymysql.connect(host="127.0.0.1",
                                    user="root",
                                    passwd="",
                                    db="jd",
        charset = 'utf8')
        cur = self.conn.cursor()
        cur.execute("USE jd")
        cur.execute(
            "CREATE TABLE computer(title VARCHAR(100),link VARCHAR(50),price VARCHAR(50),comment VARCHAR(50))")
        self.conn.commit()

    def process_item(self, item, spider):
        try:
            title_1 = item['title']
            link_1 = item['link']
            price_1 = item['price']
            comment_1 = item['comment']
            cur = self.conn.cursor()
            cur.execute("INSERT INTO computer(title,link,price,comment) VALUES (%s,%s,%s,%s)",(title_1,link_1,price_1,comment_1))
            self.conn.commit()
        except Exception as err:
            pass
        return item

使用的是navicat作為mysql的互動

最後結果：

遇到的一些難題：

1、mysql的安裝，參考我的另一篇博文：

2、抓包：我所取的資料裡面，有兩個欄位是需要抓包的，一個是price，另一個是comment，抓包的時候注意包的地址，裡面一般會包括關鍵字，例如price的包的連結名裡面也會有price

3、我的navicat插資料進去的時候中文會顯示‘？？？‘的亂碼，這裡我是參考：點選開啟連結

4、經過多次除錯之後，發現訪問資料量太多了，京東開始問我要驗證碼了，驗證碼解碼方面還在學習當中，掌握了之後再回頭做修改

爬蟲專案：京東商品資料爬取

spider程式碼：# -*- coding: utf-8 -*- import scrapy from scrapy.http import Request from jingdong.items import JingdongItem import re import u

Python爬蟲基礎：驗證碼的爬取和識別詳解

今天要給大家介紹的是驗證碼的爬取和識別，不過只涉及到最簡單的圖形驗證碼，也是現在比較常見的一種型別。執行平臺：Windows Python版本：Python3.6 IDE: Sublime Text 其他：Chrome瀏覽器簡述流程：步驟1：簡單介紹驗證碼步驟2：

爬蟲案例—中基協資料爬取

因為工作原因，需要爬取相關網站的資料，包括中基協網站和天眼查部分資料。一、中基協網站爬取思路： 1.檢視目標頁：http://gs.amac.org.cn/amac-infodisc/api/pof/manager?rand=0.9775162173180119&am

Python爬蟲教程：多執行緒爬取電子書

程式碼非常簡單，有咱們前面的教程做鋪墊，很少的程式碼就可以實現完整的功能了，最後把採集到的內容寫到 csv 檔案裡面，( csv 是啥，你百度一下就知道了) 這段程式碼是 IO密集操作我們採用 aiohttp 模

java爬蟲實現百度地圖資料爬取

本次專案主要實現百度地圖地點檢索功能的資料爬取，可以獲得檢索的相關資訊。主要是採用百度地圖API介面實現，採用的是servlet，資料庫採用的是mybatis。話不多說，上程式碼。1.DAO層資料package dao;import java.util.List;import

天貓和淘寶商品資料爬取

一、思路最近做了一個網站用到了從網址爬取天貓和淘寶的商品資訊，首先看了下手機端的網頁發現用的react，不太瞭解沒法搞，所以就考慮從PC入口爬取資料，但是當爬取URL獲取資料時並沒有獲取價格，庫存等的資訊，仔細研究了下發現是非同步請求了另一個介面，但是介面要

Python爬蟲系列：京東商品爬蟲

需求：爬取京東手機頻道的手機商品資訊：名稱、價格、評論數、商家名稱等這裡涉及2個問題需要解決。 1、手機圖片的爬取和儲存 2、手機價格的爬取與儲存（因為手機價格是非同步載入的，無法從網頁原始碼中直接獲取）圖片的爬取和儲存 import re

Python資料爬蟲學習筆記（21）爬取京東商品JSON資訊並解析

一、需求：有一個通過抓包得到的京東商品的JSON連結，解析該JSON內容，並提取出特定id的商品價格p，json內容如下： jQuery923933([{"op":"7599.00","m":"9999.00","id":"J_5089253","p":"7099.00"}

Python爬蟲實習筆記 | Week4 專案資料爬取與反思

2018/11/05 1.所思所想：今天我把Python爬蟲實戰這本書Chapter6看完，很有感觸的一點是，書本中對爬蟲實現的模組化設計很給我靈感，讓我對專案中比較無語的函式拼接有了解決之道，內省還是比較興奮。此外，在吃飯問題上需要認真思考下，是否應注意合理的膳食，是否應對要吃的進行好好考究。下

PHP爬蟲：百萬級別知乎使用者資料爬取與分析

這次抓取了110萬的使用者資料，資料分析結果如下：開發前的準備安裝Linux系統（Ubuntu14.04），在VMWare虛擬機器下安裝一個Ubuntu；安裝PHP5.6或以上版本；安裝MySQL5.5或以上版本；安裝curl、pcntl擴充套件。使

爬蟲專案：scrapy爬取暱圖網全站圖片

一、建立專案、spider，item以及配置setting建立專案：scrapy startproject nitu建立爬蟲：scrapy genspider -t basic nituwang nipic.com寫個item：# -*- coding: utf-8 -*-

爬蟲專案：requests爬取豆瓣電影TOP250存入excel中

這次爬取是爬取250部電影的相關內容，分別用了requests請求url，正則表示式re與BeautifulSoup作為內容過濾openpyxl作為excel的操作模組，本人為才學不久的新手，程式碼編寫有點無腦和囉嗦，希望有大神能多提建議首先，程式碼清單如下：

R語言爬蟲實戰：知乎live課程資料爬取實戰

杜雨，EasyCharts團隊成員，R語言中文社群專欄作者，興趣方向為：Excel商務圖表，R語

Python網路資料爬取----網路爬蟲基礎（一）

The website is the API......(未來的資料都是通過網路來提供的，website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。 ##Requests 庫的使用，此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面；自動的

Python爬蟲實習筆記 | Week3 資料爬取和正則再學習

2018/10/29 1.所思所想：雖然自己的考試在即，但工作上不能有半點馬虎，要認真努力，不辜負期望。中午和他們去吃飯，算是吃飯創新吧。下午爬了雞西的網站，還有一些欄位沒爬出來，正則用的不熟悉，此時終於露出端倪，心情不是很好。。明天上午把正則好好看看。 2.工作： [1].哈爾濱：html p

爬蟲：輸入網頁之後爬取當前頁面的圖片和背景圖片,最後打包成exe

環境：py3.6 核心庫：selenium(考慮到通用性，js載入的網頁)、pyinstaller 顏色顯示：colors.py colors.py 用於在命令列輸出文字時，帶有顏色，可有可無。 # -*- coding:utf-8 -*-# # filename: prt_cmd_color.py

Python資料爬蟲學習筆記（13）爬取微信文章資料

一、需求：在微信搜尋網站中,通過設定搜尋關鍵詞以及搜尋頁面數，爬取出所有符合條件的微信文章：二、搜尋頁URL分析階段： 1、在搜尋框中輸入任意關鍵詞，在出現的搜尋結果頁面點選下一頁，將每一頁的URL複製下來進行觀察： 2、注意到頁碼由page=X決定，搜尋關鍵

Python爬蟲入門教程 3-100 美空網資料爬取

簡介從今天開始，我們嘗試用2篇部落格的內容量，搞定一個網站叫做“美空網”網址為：http://www.moko.cc/，這個網站我分析了一下，我們要爬取的圖片在下面這個網址 http://www.moko.cc/post/1302075.html 然後在去分析一下，我需要找到一個圖片列表

爬蟲-移動端資料爬取

前言隨著移動市場的火熱，各大平臺都陸陸續續的推出了自己的移動端APP來拉攏吸引和便捷其廣大的使用者。那麼在移動端的平臺當時勢必會出現大量有價值的資訊和資料，那這些資料我們是否可以去享用一下呢？那麼接下來就進入我們的移動端APP資料的爬蟲中來吧。 1、什麼是Fiddl

爬蟲小計（charles抓取wss資料--yy資料爬取）

背景爬取一個直播平臺的資訊與一個普通網站的資料直播平臺的資訊有熱門主播的線上人數，時常，與熱門直播的禮物情況（粉絲的人物畫像）難點打賞禮物的人物畫像 https wss（資料的實時性），需

爬蟲專案：京東商品資料爬取

相關推薦