python爬取京東文胸資料(三)

阿新 • • 發佈：2018-11-27

上篇我們只爬了一個牌子的文胸，這次我們來多爬幾個牌子的

##1.爬取不同牌子的url
得到id
其實可以直接爬那個href,但我發現有的帶了https有的沒帶就索性直接取id拼接了

import requests
import json
import threading
import time
import re
from lxml import etree

class cup:
    def __init__(self):
        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
        self.url = 'https://item.jd.com/'


    def vari_cpu(self):#取到不同型別文胸的評論json
        url_list = []
        url = 'https://search.jd.com/Search?keyword=%E6%96%87%E8%83%B8&enc=utf-8&spm=2.1.1'
        html = requests.get(url,headers = self.headers).text
        html = etree.HTML(html)
        cpu_link = html.xpath('//div[@class="p-icons"]/@id')
        for i in cpu_link:#網頁字尾
            i = i[6::] #得到數字的部分
            Fin_url = f'https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv12370&productId={i}'
            #format的新用法
            url_list.append(Fin_url) #url列表
        return url_list


    def get_json(self,url):
        res = requests.get(url, headers=self.headers).text
        s = re.compile(r'fetchJSON_comment.*?\(')
        uesless = str(s.findall(res))
        jd = json.loads(res.lstrip(uesless).rstrip(');'))
        com_list = jd['comments']
        for i in com_list:
            print(i['productColor'],i['productSize'])


if __name__ == '__main__':
    pa = cup()
    url_list = pa.vari_cpu()
    for j in url_list:
        for i in range(3):
            js_url = j+'&score=0&sortType=5&page=%d&pageSize=10&isShadowSku=0&rid=0&fold=1'%i
            time.sleep(1)
            t = threading.Thread(target=pa.get_json, args=(js_url,))
            t.start()

我直接把json的url裡面的id換成各自的id了，發現竟然可行，那就可行吧，省的麻煩.

這裡還是有不完善的地方，就是那個執行緒，等會兒去補補執行緒程序內容，再改進一波，這個不敢爬多，先微微爬點看看，不過我看那一堆玩意兒是貞德多,就不發了

寧外我還發現它的首頁竟然還藏著一個ajax,當你不下拉時就30個牌子，一下拉變60個了…

改進在於實現了多個牌子和執行緒池的改進

import requests
import json
from concurrent.futures import ThreadPoolExecutor
import time
import re
from lxml import etree

class cpu:
    def __init__(self):
        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
        self.url = 'https://item.jd.com/'


    def vari_cpu(self):#取到不同型別文胸的評論json
        url_list = []
        url = 'https://search.jd.com/Search?keyword=%E6%96%87%E8%83%B8&enc=utf-8&spm=2.1.1'
        html = requests.get(url,headers = self.headers).text
        html = etree.HTML(html)
        cpu_link = html.xpath('//div[@class="p-icons"]/@id')
        for i in cpu_link:#網頁字尾
            i = i[6::] #得到數字的部分
            Fin_url = f'https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv12370&productId={i}'
            #format的新用法
            url_list.append(Fin_url) #url列表
        return url_list


    def get_json(self,url):
        res = requests.get(url, headers=self.headers).text
        s = re.compile(r'fetchJSON_comment.*?\(')#匹配無關符號，每天會變所以用正則匹配
        uesless = str(s.findall(res)) #變成字串供下面使用
        jd = json.loads(res.lstrip(uesless).rstrip(');'))#去掉無關符號
        com_list = jd['comments']
        for i in com_list:
            print(i['productSize'])

    def get_list(self):
        Fin_url= []
        url_list = self.vari_cpu()
        for j in url_list:
            for i in range(5):
                js_url = j + '&score=0&sortType=5&page=%d&pageSize=10&isShadowSku=0&rid=0&fold=1' % i  # json的url(有規律)
                Fin_url.append(js_url)
        return Fin_url

if __name__ == '__main__':
    pa = cpu()
    Fin_url = pa.get_list()
    with ThreadPoolExecutor(max_workers=8) as pool:
        results = pool.map(pa.get_json,Fin_url)
    for i in results:
        print(i)

python爬取京東文胸資料(三)

上篇我們只爬了一個牌子的文胸，這次我們來多爬幾個牌子的 ##1.爬取不同牌子的url 其實可以直接爬那個href,但我發現有的帶了https有的沒帶就索性直接取id拼接了 import requests import json import threading imp

python爬取京東文胸資料(二)

##1.獲取js請求上一篇我們只抓取了一頁的評論，今天我們多抓點 ##2.比較異同 import requests import json import threading import time import re class cpu: def __init__(s

python爬取京東文胸資料(一)

##點選——>要爬取網址作為一個爬蟲小白解決問題是十分蛋疼的(Φ皿Φ)，就這幾行程式碼，我折磨了一下午，然後我發現，學習程式碼最大的難題是學習資源獲取的途徑並不是程式碼本身，只要學，任何人都能學會 **1.**先到達頁面開啟開發者模式(F12)，點選商品評論，我們隨便的複

python爬取京東店鋪商品價格資料(更新版)

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料 ##sqlalchemy ：備用方案，上傳資料到mysql 以下是原始碼： # -*- coding:

Python 爬蟲爬取京東商品評論資料，並存入CSV檔案

利用閒暇時間寫了一個抓取京東商品評論資料的爬蟲。之前寫了抓取拉勾網資料的爬蟲，請參考1，參考2。我的開發環境是Windows + Anaconda3（Python 3.6），家用電腦沒安裝Linux（Linux下也是可以的）。京東的評論資料是通過介面提供的，所以先找

python 爬取京東手機圖

跳過 close 高手 cnblogs port cep findall pen 得到初學urllib，高手勿噴... import re import urllib.request #函數：每一頁抓取的30張圖片 def craw(url,page): ima

Python爬取京東商品列表

+= 圖片 info sta HR earch tex new html 爬取代碼： import requests from bs4 import BeautifulSoup def page_url(url): for i in range(1, 3):

Python爬取網頁的圖片資料

本案例是基於PyCharm開發的，也可以使用idea。在專案內新建一個python檔案TestCrawlers.py TestCrawlers.py # 匯入urllib下的request模組 import urllib.request # 匯入正則匹配包 import re

python爬取鏈家新房資料

轉載：https://blog.csdn.net/clyjjczwdd/article/details/79466032 from bs4 import BeautifulSoup import requests import time import pandas as p

python爬取虎嗅網資料

#!/usr/bin/env python # -*- coding:utf-8 -*- import requests import pymongo from bs4 import BeautifulSoup client = pymongo.MongoClient(host='l

Python爬取大眾點評成都資料，只為告訴你哪家火鍋最好吃

冬天到了，天氣越來越冷，小編起床越來越困難了，每一天都想吃辣辣的火鍋。成都到處都是火鍋店，有名的店，稍微去晚一點，排隊都要排好久，沒聽說的店，又怕味道不好。那麼如何選擇火鍋店呢？最簡單的肯定是在美團。大眾點評上找一找啊。所以，本文就從大眾點評上爬取了成都的火鍋資料，來進行了分析。 Python學

python爬取新浪股票資料—繪圖【原創分享】

目標：不做蠟燭圖，只用折線圖繪圖，繪出四條線之間的關係。注：未使用介面，僅爬蟲學習，不做任何違法操作。 1 """ 2 新浪財經，爬取歷史股票資料 3 """ 4 5 # -*- coding:utf-8 -*- 6 7 import num

Python爬取雪球網金融資料

爬取目標：雪球網爬取內容：雪球網深滬股市情況使用工具：requests庫實現傳送請求、獲取響應。　　　　　　　json格式的動態載入資料實現資料解析、提取。　　　　　　　pymysql進行資料儲存思路：對該網站的動態載入資料的請求方式進行控制變數的傳送請求，最終得到實際

python爬取拉勾網資料儲存到mysql資料庫

環境:python3 相關包:requests , json , pymysql 思路:1.通過chrome F12找到拉鉤請求介面,分析request的各項引數 2.模擬瀏覽器請求拉鉤介面 3.預設返回的json不是標準格式 ,

python爬取拉鉤網資料

import requests import re#引用正則匹配 from bs4 import BeautifulSoup headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) A

利用Python爬取QQ好友空間資料

程式思路構造請求連結先獲取所有的好友獲取說說獲取留言獲取個人資訊把資料存到資料庫以上就是整個過程中的大思路，然後在逐步把大思路化解成小的具體的問題去解決。本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習

python爬取攜程酒店資料

首先開啟攜程所有北京的酒店http://hotels.ctrip.com/hotel/beijing1 簡簡單單，原始碼中包含我們需要的酒店資料，你以為這樣就結束了？攜程的這些資料這麼廉價地就給我們得到了？事實並不是如此，當我們點選第二頁的時候出現問題：雖然酒店的資料改變了，但是我們發現

使用python爬取京東評論（json）

任務：爬取京東某手機的評論這次爬取的內容是動態的所以不能直接爬原始碼中的內容開啟網頁按下F12在Network裡找到productPageComments檔案開啟這個檔案這個檔案是

python爬取糗事百科資料並儲存到sqlite中，命令列讀出

import requests import sqlite3 from bs4 import BeautifulSoup class QSBK: def __init__(self): self.page=0 self.items=[

Python爬取雙色球資料進行分析

突發奇想，是否可以從雙色球的歷史資訊中分析出現次數最多的組合，那就從1+1的組合開始分析，嘿嘿，經常中這種組合也挺不錯哦！現在我們開始獲取資料，應該從中彩網的爬取資料比較靠譜，下面是指令碼。 # -*- coding:utf-8 -*- import re

python爬取京東文胸資料(三)

相關推薦