爬取京東資料

阿新 • • 發佈：2018-11-26

import re
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as 
 EC
from pyquery import PyQuery as pq
# from config import *
import pymongo
import json
import time
from multiprocessing import Pool, Process
from threading import Thread

# MONGO_URL = 'localhost'
# MONGO_DB = 'taobao'
# MONGO_TABLE = 'product'

SERVICE_ARGS = ['--load-images=false', '--disk-cache=true' 
,'--ignore-ssl-errors=true', '--ssl-protocol=TLSv1']

# KEYWORD = '美食'

# client = pymongo.MongoClient(MONGO_URL)
# db = client[MONGO_DB]

browser = webdriver.PhantomJS(service_args=SERVICE_ARGS)
# browser.implicitly_wait(15)
# browser = webdriver.PhantomJS()
wait = WebDriverWait(browser, 15)

browser. 
set_window_size(1400, 3000)

x = 1

class Rate:
    def __init__(self):
        SERVICE_ARGS = ['--load-images=false', '--disk-cache=true','--ignore-ssl-errors=true', '--ssl-protocol=TLSv1']
        self.browser = webdriver.PhantomJS(service_args=SERVICE_ARGS)
        self.wait = WebDriverWait(self.browser, 15)
    def get_good_rate(self, url):
        if len(url) > 52:
            return -1
        self.browser.get(url)
        doc = pq(self.browser.page_source)
        if not (doc('#comment > div.mc > div.comment-info.J-comment-info > div.comment-percent > div')):
            print('no')
            browser.execute_script("window.scrollBy(0,6000)")
            time.sleep(2)
        else:
            print('yes')
            return doc('#comment > div.mc > div.comment-info.J-comment-info > div.comment-percent > div').text()
            
        rate = self.wait.until(
                EC.presence_of_element_located((By.CSS_SELECTOR, '#comment > div.mc > div.comment-info.J-comment-info > div.comment-percent > div'))
            )
        return rate.text

r = Rate()


def search():
    global x
    global r
    print('正在搜尋')
    try:
        browser.get('https://www.jd.com')
        input = wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR, '#key'))
        )
        print('input')
        submit = wait.until(
            EC.element_to_be_clickable((By.CSS_SELECTOR, '#search > div > div.form > button')))
        # submit = wait.until(
        #     EC.element_to_be_clickable((By.CSS_SELECTOR, '#J_TSearchForm > div.s')))
        input.send_keys('空氣淨化器')
        submit.click()
        wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR, '#J_goodsList > ul > li:nth-child(30)'))
        )
        print('..')
        doc = pq(browser.page_source)
        # with open('page.txt', 'w', encoding='utf-8') as f:
        #     f.write(doc.text())
        items = doc('.gl-item')
        print(len(items))
        data = []
        for rank, item in enumerate(items):
            item = pq(item)
            print(x)
            product = {
                'rank': x,
                'price': item('.p-price i').text(),
                'title': item('.p-name em').text(),
                'comment_cnt': item('.p-commit>strong a').text(),
                'comment_url': 'https:' + item('.p-commit>strong a').attr.href
            }
            product['brand'] = product['title'].split('\n')[0]
            good_rate = r.get_good_rate(product['comment_url'])
            product['good_rate'] = good_rate
            data.append(product)
            x += 1
        with open('data.txt', 'a', encoding='utf-8') as f:
            f.write(json.dumps(data, indent=2, ensure_ascii=False))
        
        # for i in range(2,101):
        #     next_page(i)
    except TimeoutException as e:
       return False


def next_page(page_number):
    global x
    global r
    print('正在翻頁', page_number)
    try:
        input = wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR, '#J_bottomPage > span.p-skip > input'))
        )
        submit = wait.until(EC.element_to_be_clickable(
            (By.CSS_SELECTOR, '#J_bottomPage > span.p-skip > a')))
        input.clear()
        input.send_keys(page_number)
        submit.click()
        wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR, '#J_goodsList > ul > li:nth-child(30)'))
        )
        print('..')
        # browser.execute_script("window.scrollBy(0,10000)")
        # time.sleep(2)
        # wait.until(
        #     EC.presence_of_element_located((By.CSS_SELECTOR, '#J_goodsList > ul > li:nth-child(60)'))
        # )
        doc = pq(browser.page_source)
        items = doc('.gl-item')
        print(len(items))
        data = []
        for rank, item in enumerate(items):
            item = pq(item)
            print(x)
            product = {
                'rank': x,
                'price': item('.p-price i').text(),
                'title': item('.p-name em').text(),
                'comment_cnt': item('.p-commit>strong a').text(),
                'comment_url': 'https:' + item('.p-commit>strong a').attr.href
            }
            product['brand'] = product['title'].split('\n')[0]
            good_rate = r.get_good_rate(product['comment_url'])
            product['good_rate'] = good_rate
            data.append(product)
            x += 1
        with open('data.txt', 'a', encoding='utf-8') as f:
            f.write(json.dumps(data, indent=2, ensure_ascii=False))
    except Exception as e:
        print(e)
        next_page(page_number)


# def save_to_mongo(result):
#     try:
#         if db[MONGO_TABLE].insert(result):
#             print('儲存到MONGODB成功', result)
#     except Exception:
#         print('儲存到MONGODB失敗', result)


def main():      
    try:
        total = search()
        total = int(re.compile(r'(\d+)').search(total).group(1))
        for i in range(2, total + 1):
            next_page(i)
    except Exception as e:
        print('出錯啦')
        print(e)
    finally:
        browser.close()

if __name__ == '__main__':
    # main()
    search()
    for i in range(2, 5):
        # time.sleep(1)
        t = Thread(target=next_page, args=(i,))
        t.start()
        t.join()
        # next_page(i)
        # p = Process(target=next_page, args=(i,))
        # p.start()
        # p.join()
    # pool = Pool()
    # pool.map(next_page, [i for i in range(2,101)])
    # pool.close()
    # pool.join()

爬取京東資料

import re from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By fro

爬取京東收件地址下得所有資料

1.工具備用 package reptile; import java.io.BufferedReader; import java.io.File; import java.io.FileNotFoundException; import java.io.FileReader; import

python爬取京東文胸資料(三)

上篇我們只爬了一個牌子的文胸，這次我們來多爬幾個牌子的 ##1.爬取不同牌子的url 其實可以直接爬那個href,但我發現有的帶了https有的沒帶就索性直接取id拼接了 import requests import json import threading imp

python爬取京東文胸資料(二)

##1.獲取js請求上一篇我們只抓取了一頁的評論，今天我們多抓點 ##2.比較異同 import requests import json import threading import time import re class cpu: def __init__(s

python爬取京東文胸資料(一)

##點選——>要爬取網址作為一個爬蟲小白解決問題是十分蛋疼的(Φ皿Φ)，就這幾行程式碼，我折磨了一下午，然後我發現，學習程式碼最大的難題是學習資源獲取的途徑並不是程式碼本身，只要學，任何人都能學會 **1.**先到達頁面開啟開發者模式(F12)，點選商品評論，我們隨便的複

python爬蟲爬取京東店鋪商品價格資料(更新版)

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料 ##sqlalchemy ：備用方案，上傳資料到mysql 以下是原始碼： # -*- coding:utf

用scrapy爬取京東的資料

# -*- coding: utf-8 -*- import scrapy from ..items import JdphoneItem import sys reload(sys) sys.setdefaultencoding("utf-8") class JdSpider(scrapy.Spid

Python資料爬蟲學習筆記（21）爬取京東商品JSON資訊並解析

一、需求：有一個通過抓包得到的京東商品的JSON連結，解析該JSON內容，並提取出特定id的商品價格p，json內容如下： jQuery923933([{"op":"7599.00","m":"9999.00","id":"J_5089253","p":"7099.00"}

python爬取京東店鋪商品價格資料(更新版)

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料 ##sqlalchemy ：備用方案，上傳資料到mysql 以下是原始碼： # -*- coding:

Python 爬蟲爬取京東商品評論資料，並存入CSV檔案

利用閒暇時間寫了一個抓取京東商品評論資料的爬蟲。之前寫了抓取拉勾網資料的爬蟲，請參考1，參考2。我的開發環境是Windows + Anaconda3（Python 3.6），家用電腦沒安裝Linux（Linux下也是可以的）。京東的評論資料是通過介面提供的，所以先找

爬蟲爬取京東部分需要的資料

#_*_coding=utf-8 _*_ #__author__ = 'Administrator' from selenium import webdriver from bs4 import BeautifulSoup import sys import

python制作爬蟲爬取京東商品評論教程

頭文件天津 ref back 文字 eai 目的格式 open 作者：藍鯨類型：轉載本文是繼前2篇Python爬蟲系列文章的後續篇，給大家介紹的是如何使用Python爬取京東商品評論信息的方法，並根據數據繪制成各種統計圖表，非常的細致，有需要的小夥伴可以參考下

python 爬取京東手機圖

跳過 close 高手 cnblogs port cep findall pen 得到初學urllib，高手勿噴... import re import urllib.request #函數：每一頁抓取的30張圖片 def craw(url,page): ima

用scrapy爬取京東商城的商品信息

keywords XML 1.5 rom toc ons lines open 3.6 軟件環境： 1 gevent (1.2.2) 2 greenlet (0.4.12) 3 lxml (4.1.1) 4 pymongo (3.6.0) 5 pyO

分布式爬蟲系統設計、實現與實戰：爬取京東、蘇寧易購全網手機商品數據+MySQL、HBase存儲

大數據分布式爬蟲 Java Redis [TOC] 1 概述在不用爬蟲框架的情況，經過多方學習，嘗試實現了一個分布式爬蟲系統，並且可以將數據保存到不同地方，類似MySQL、HBase等。基於面向接口的編碼思想來開發，因此這個系統具有一定的擴展性，有興趣的朋友直接看一下代碼，就能理

Python爬取京東商品列表

+= 圖片 info sta HR earch tex new html 爬取代碼： import requests from bs4 import BeautifulSoup def page_url(url): for i in range(1, 3):

Java爬蟲爬取京東商品信息

1.2 image 商品 void code 更改 size pri name 以下內容轉載於《https://www.cnblogs.com/zhuangbiing/p/9194994.html》，在此僅供學習借鑒只用。 Maven地址 <dependency>

用scrapy爬取京東的數據

identify allow 9.png spider main %d 網頁 pro fyi 本文目的是使用scrapy爬取京東上所有的手機數據,並將數據保存到MongoDB中。一、項目介紹主要目標 1、使用scrapy爬取京東上所有的手機數據 2、將爬取的數據

爬取xml資料之R

生物資訊很多時候要爬資料。最近也看了一些這些方面的。 url<-"要爬取的網址" url.html<-htmlParse(url,encoding="UTF-8") 如果要獲得部分資訊，則使用XPath方法。 xpath<-"//*[@id='填寫目標id']/span[@id='細

scrapy爬取京東商城某一類商品的資訊和評論（二）

2、任務二：爬取商品評論資訊如果不需要爬取使用者的地域資訊，那麼用這個網址爬就好： http://club.jd.com/review/10321370917-1-1-0.html 其中10321370917是商品的ID，評論的第一頁就是 -1-1-0.htm

爬取京東資料

相關推薦