python爬取淘寶搜尋頁（練習）

阿新 • • 發佈：2018-11-10

1、本博文中程式碼是轉載內容，原文章地址如下：

https://segmentfault.com/a/1190000014688216

2、原作者講解的很詳細，我只是在原文程式碼的基礎上稍作修改，添加了一些註釋及無關緊要的程式碼

3、本篇博文涉及知識點如下：

①通過對比頁面構造爬取網址
②獲取日期及當前時間
③獲取網頁json內容
④通過觀察json內容找到哪些關鍵點是要提取的資訊，注意各個字典的巢狀

#python3.6
import re
import requests
from datetime import date
import json
import time

def 
 sousuo(keyword,date_,select_type,pages):
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit'
                      '/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36'}
    item_ids = [];titles = [];prices = [];locations = [];sales_count = [];user_ids = [];store_names = 
 []
    for i in range(int(pages)):
        page = str(44 * i)
        #構造網址
        url = 'https://s.taobao.com/search?q={}&imgfile=&js=1' \
              '&stats_click=search_radio_all%3A1&initiative_id={}&ie=utf8{}&s={}'\
            .format(keyword,date_,selection[select_type] 
,pages)
        r = requests.get(url, headers=headers)
        #所有的商品資訊都在p_page_config的字典內
        data = re.search(r'g_page_config = (.+);',r.text)
        #載入json中的內容
        data = json.loads(data.group(1), encoding='utf-8')
        #層層剝離，每個商品的資訊都在一個字典裡，所有商品的字典組成一個auctions列表，
        # mods、itemlist、data、auctions 這幾個字典是巢狀關係
        for auction in data['mods']['itemlist']['data']['auctions']:
            #以下語句是把一個商品的特定資訊加到指定的列表裡，結合上面的for迴圈，可把所有商品的資訊都加到指定的列表中
            item_ids.append(auction['nid']) #nid是商品的編號
            titles.append(auction['raw_title']) #raw_title是商品的名字
            prices.append(auction['view_price']) #view_price是商品價格
            locations.append(auction['item_loc']) #item_loc是賣家地址
            sales_count.append(auction['view_sales']) #view_sales是商品銷售量
            user_ids.append(auction['user_id']) #user_id是賣家的id
            store_names.append(auction['nick']) #nick是賣家商店的店名
        # 為便於觀察進度，添加了print
        print('已完成%d頁' % (i+1))
        # 隔一段時間訪問一次，以免出現"遠端主機強迫關閉了一個現有的連線 10054"
        # 設定5秒的時候還是會出現連線失敗的情況，設定10秒基本不會出現連線失敗的情況，但是時間有點長，本次僅做測試學習用，更好的方法以後再改進
        time.sleep(10)
    #顯示每個商品資訊是否齊全
    print(len(item_ids),len(titles),len(prices),len(locations),len(sales_count),len(user_ids),len(store_names))
    print(item_ids)
    print(titles)
    print(prices)
    print(locations)
    print(sales_count)
    print(user_ids)
    print(store_names)
    return len(item_ids)

#設定用那種方式進行商品排序，default是綜合排序，sale-desc是按銷售量排序
selection = { '0':'&sort=default','1':'&sort=sale-desc'}
date_ = str(date.today()).replace('-','')
keyword = input('輸入商品名：')
pages = input('爬多少頁：')
select_type = input('輸入0按預設排序，輸入1按銷量排序：')
#為便於測試，添加了如下語句
if not keyword:
    keyword = '電腦'
if not select_type:
    select_type = '0'
if not pages:
    pages = '1'
#time.time()獲取當前的時間戳，便於顯示爬取耗費的時間
current_time = time.time()
item_count = sousuo(keyword, date_, select_type, pages)
#用當前的時間點減去爬取之前記錄的時間點就是爬取網站耗去的時間
cost_time = int(time.time().__float__() - current_time.__float__())
print('\n\n抓取%s頁，共%d個商品，用時%ds' % (pages,item_count,cost_time))

python爬取淘寶搜尋頁（練習）

1、本博文中程式碼是轉載內容，原文章地址如下： https://segmentfault.com/a/1190000014688216 2、原作者講解的很詳細，我只是在原文程式碼的基礎上稍作修改，添加了一些註釋及無關緊要的程式碼 3、本篇博文涉及知識點如下： ①通過對比頁面構

python爬蟲爬取淘寶搜尋頁面商品資訊資料

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料以下是原始碼： #!coding=utf-8 import requests import re import

Python 爬取淘寶商品信息和相應價格

獲得 com ppa pri 大小 light parent tps 爬取！只用於學習用途！ plt = re.findall(r‘\"view_price\"\:\"[\d\.]*\"‘,html) ：獲得商品價格和view_price字段，並保存在plt中 tlt =

Python爬取淘寶店鋪和評論

adg 測試工具 .exe .html bar lis 界面參數 bdr 1 安裝開發需要的一些庫 (1) 安裝mysql 的驅動：在Windows上按win+r輸入cmd打開命令行，輸入命令pip install pymysql，回車即可。 (2) 安裝自動化測試的驅動

Python爬取淘寶商品資訊

頁面分析開啟淘寶搜尋衛衣男檢視原始碼我們這裡可以找到幾個關鍵詞通過分析我們可以找到價格，郵費，商家地址，付款人數，商家ID，店鋪名稱。分析URL 我們可以看到第一頁url：https://s.taobao.com/search?q=%E5%8D%AB%E

Python爬取淘寶店鋪資訊

1.採用Chrome無頭瀏覽模式，後臺自動執行 2.函式結構化，易於擴充套件改變 3.異常重啟，防止崩潰已經封裝完畢 import re from selenium import webdriver from selenium.webdriver.common.by

Python爬取淘寶商品的銷量

執行程式，輸入想要爬取的商品關鍵詞，在程式碼中的‘###’可以進一步約束商品的屬性，比如某某作者的書籍，可以在###處輸入作者名字，以及時期等等。最後可以得到所要商品的總銷量 import requests import bs4 import re import jso

python3+seleium+chrome headless+mongodb 爬取淘寶產品例項（僅程式碼+結果）

學習書籍：《python3 網路爬蟲開發實踐》視訊地址：例項視訊 1.main.py import re from pyquery import PyQuery as pq from selenium import webdriver from sele

Python爬蟲實戰之抓取淘寶MM照片（一）

背景 Python爬蟲系列教程的一次實戰，然而淘寶進行過頁面改版，現在已經沒有淘寶MM這個版面，取而代之的是淘女郎。改版後，頁面是使用JS渲染的，並不能直接通過url來切換頁碼。該系列教程後續講到

用Python爬取淘寶商品

本文爬取淘寶女裝短裙商品，並將商品資訊存入mysql中分析思路 1.頁面分析在淘寶首頁搜尋“短裙”，進入商品列表頁面：分析頁面原始碼: 通過分析原始碼，可發現商品相關的幾個關鍵資訊：商品圖片地址、商品名、價格、郵費、付款人數、店鋪名、店鋪

python爬取淘寶華為手機

import re from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by impor

Python爬取淘寶頁面的資料，包含商品名字，價格及地址

作業系統：Windows7專業版 Python版本：3.6.4 ide：PyCharm Community Edition 4.0.4 程式碼如下： # -*- coding:utf-8 -*- __author__ = 'zengqiang.wang' import

python爬蟲爬取淘寶，羅蘭電鋼琴和雅馬哈電鋼琴（參考崔大）

淘寶網上有很多商品，這些商品的資訊就是一個很不錯的資料來源，於是我參考資料後依葫蘆畫瓢弄了一個爬蟲程式來爬一爬夢寐以求的電鋼琴。宣告一下：電鋼琴和電子琴是兩種不同的琴，我在正則表示式裡面設定了只要含有電子琴這個詞語一律不抓取。同時淘寶商家的很多商品欄都是重複的，不加篩選前

python 爬蟲實戰4 爬取淘寶MM照片

寫真換行符 rip 多行 get sts tool -o true 本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片把每一個MM的寫真圖片按照文件夾保存到本地熟悉文件保存的過程 1.URL的格式在這裏我們用到的URL是 http:/

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

實戰趨勢 fat sts AI top 名稱 2萬安裝模塊項目內容本案例選擇>> 商品類目：沙發；數量：共100頁 4400個商品；篩選條件：天貓、銷量從高到低、價格500元以上。項目目的 1. 對商品標題進行文本分析詞雲可視化 2.

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_stat

Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼

可以實現功能的全部程式碼： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_statu

使用python爬蟲——爬取淘寶圖片和知乎內容

本文主要內容：目標：使用python爬取淘寶圖片；使用python的一個開源框架pyspider（非常好用，一個國人寫的）爬取知乎上的每個問題，及這個問題下的所有評論最簡單的爬蟲——如下python程式碼爬取淘寶上模特圖片爬

網路爬蟲：Python+requests+re+xlwt 爬取淘寶商品並把價格和名字寫入Excel表格

由於學東西比較死，不夠靈活，學校的acm實驗室做演算法題，打比賽，我是真的跟不上那些大佬...就看到人以前實驗室退出的，加到其他實驗室學習專案，做專案，做專案相對學習演算法來說，沒有那麼燒腦，還能做出有趣的東西....我就想學習做專案，因為打比賽我是拿不到能看的成績....

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(ur

python爬取淘寶搜尋頁（練習）

1、本博文中程式碼是轉載內容，原文章地址如下：

2、原作者講解的很詳細，我只是在原文程式碼的基礎上稍作修改，添加了一些註釋及無關緊要的程式碼

3、本篇博文涉及知識點如下：

相關推薦