python爬蟲爬取淘寶網頁資料

阿新 • • 發佈：2019-02-04

O、requests 和 re 庫的介紹

requests庫是一個小型好用的網頁請求模組，可用於網頁請求，常用來編寫小型爬蟲

安裝requests可以使用pip命令：

在命令列輸入 pip install requests

re庫是正則表示式庫，是python的標準庫

一、分析網頁地址和原始碼

1.首先用chrome瀏覽器進入淘寶商品頁面，檢視網頁地址
這裡寫圖片描述
分析可得查詢商品的地址為

keyword 為所查詢商品的名稱

2.右擊，點選檢視原始碼

分析原始碼

可以得到商品的名稱為 “raw_title”: 後面的字串

可以得到商品的價格為 “view_price”: 後面的字串
這裡寫圖片描述

思路：

可以用正則表示式匹配 “raw_title”: 和 “view_price”:後的字串

二、分析寫出爬蟲所需函式框架

getHTMLText（url）解析
傳入一個url 用requests庫請求網頁並返回網頁原始碼文字。

2.parsePage(infoList, html) 解析

傳入一個列表和 html程式碼，

用正則表示式解析出商品名稱和價格，

並儲存在infoList列表中。

3.printGoodList(infoList) 解析
用一定的格式將商品的名稱和價格打印出來。

4.main() 解析

主函式，程式執行的起點，呼叫以上函式組裝成一個爬蟲。

keyword ：所要查詢的關鍵字
deep: 一次查詢所要查詢的頁數

三、使用requests + re 對函式進行具體實現，寫出原始碼

程式碼如下：

#定向爬取淘寶商品頁面
import requests
import re

def getHTMLText(url):
    """提取頁面HTML程式碼，並返回HTML文字"""
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return 
 r.text
    except:
        print("頁面提取錯誤")
        return ""

def parsePage(infoList, html):
    """解析頁面，將[價格，名字] 存入列表"""
    try:
        #分析網頁原始碼解析出價格
        price = re.findall(r'\"view_price\":\"\d+\.\d+?"',html)
        title = re.findall(r'\"raw_title\":\".+?\"',html)
        #test this re
        #print(price)
        #print(title)
        for i in range(len(price)):
            _price = eval(price[i].split(':')[1])
            _title = eval(title[i].split(':')[1])
            infoList.append([_price, _title])
    except:
        print('頁面解析錯誤')

def printGoodsList(infoList):
    """將解析好的商品頁面打印出來"""
    tplt = '{:^4}\t{:^6}\t{:^10}'
    print(tplt.format("數量","價格", "名字"))
    count = 0
    for goods in infoList:
        count+=1
        print(tplt.format(count,goods[0], goods[1]))        

def main():
    keyword = "電腦"
    deep = 1 #頁數
    url = 'https://s.taobao.com/search?q=' + keyword
    infoList = []
    for i in range(deep):
        _url = url + '&s=' + str(i*44)
        text = getHTMLText(_url)
        parsePage(infoList, text)
        printGoodsList(infoList)

main()

四、程式執行的部分結果展示
這裡寫圖片描述

想學習更多python技術可以關注我的公眾號
定期分享python技術類文章
這裡寫圖片描述

python爬蟲爬取淘寶網頁資料

O、requests 和 re 庫的介紹 requests庫是一個小型好用的網頁請求模組，可用於網頁請求，常用來編寫小型爬蟲安裝requests可以使用pip命令：在命令列輸入 pip install requests re庫是正則表示式庫，是p

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_stat

python爬蟲爬取淘寶搜尋頁面商品資訊資料

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料以下是原始碼： #!coding=utf-8 import requests import re import

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(ur

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

實戰趨勢 fat sts AI top 名稱 2萬安裝模塊項目內容本案例選擇>> 商品類目：沙發；數量：共100頁 4400個商品；篩選條件：天貓、銷量從高到低、價格500元以上。項目目的 1. 對商品標題進行文本分析詞雲可視化 2.

python爬蟲爬取淘寶，羅蘭電鋼琴和雅馬哈電鋼琴（參考崔大）

淘寶網上有很多商品，這些商品的資訊就是一個很不錯的資料來源，於是我參考資料後依葫蘆畫瓢弄了一個爬蟲程式來爬一爬夢寐以求的電鋼琴。宣告一下：電鋼琴和電子琴是兩種不同的琴，我在正則表示式裡面設定了只要含有電子琴這個詞語一律不抓取。同時淘寶商家的很多商品欄都是重複的，不加篩選前

使用python爬蟲——爬取淘寶圖片和知乎內容

本文主要內容：目標：使用python爬取淘寶圖片；使用python的一個開源框架pyspider（非常好用，一個國人寫的）爬取知乎上的每個問題，及這個問題下的所有評論最簡單的爬蟲——如下python程式碼爬取淘寶上模特圖片爬

Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼

可以實現功能的全部程式碼： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_statu

Python 爬蟲爬取單個基因表格資料的生物學功能（urllib+正則表示式）：

Python 爬蟲爬取單個基因的生物學功能（urllib+正則表示式）： import re import urllib from urllib import request url = 'https://www.ncbi.nlm.nih.gov/gene/?term=FUT1'

python爬蟲爬取今日頭條APP資料（無需破解as ,cp，_cp_signature引數）

#!coding=utf-8 import requests import re import json import math import random import time from requests.packages.urllib3.exceptions import Insecure

Python爬蟲-爬取鬥魚網頁selenium+bs

爬取鬥魚網頁（selenium+chromedriver得到網頁，用Beasutiful Soup提取資訊） ============================= ================================= =============================

Python 爬蟲爬取單個基因表格資料的生物學功能（urllib+正則表示式）：

Python 爬蟲爬取單個基因的生物學功能（urllib+正則表示式）： import re import urllib from urllib import request url = ‘https://www.ncbi.nlm.nih.gov/gene

python爬蟲爬取非同步載入網頁資訊（python抓取網頁中無法通過網頁標籤屬性抓取的內容）

1.問題描述最近由於學習內容的要求，需要從網頁上抓取一些資料來做分析報告，在看了python爬蟲的一些基礎知識之後就直接上手去網站上爬資料了。作為新手踩坑是無法避免，最近就遇到了一個比較難的問題：一般情況下，要抓去網頁上某個標籤上的內容，在通過urllib下

Python 爬蟲爬取京東商品評論資料，並存入CSV檔案

利用閒暇時間寫了一個抓取京東商品評論資料的爬蟲。之前寫了抓取拉勾網資料的爬蟲，請參考1，參考2。我的開發環境是Windows + Anaconda3（Python 3.6），家用電腦沒安裝Linux（Linux下也是可以的）。京東的評論資料是通過介面提供的，所以先找

Scrapy爬取淘寶網資料的嘗試

因為想學習資料庫，想要獲取較大量的資料，第一個想到的自然就是淘寶。。。。其中有大量的商品資訊，淘寶網反爬措施還是比較多，特別是詳情頁面還有噁心的動態內容該例子中使用Scrapy框架中的基礎爬蟲(CrawlSpider還有點沒搞清楚= = b) 先貼上整體程式碼 impo

python +selenium 爬取淘寶網商品資訊

前幾天用python爬取豆瓣關於電影《長城》的影評，發現豆瓣的網頁是靜態的，心中一陣竊喜。以為對於動態網頁瞭解的不是太多。但是主要是用cookie加headers爬取的。效果還不錯，爬取了六七萬條網友的評價，後期主要打算研究一下，如何發現那些使用者是水軍。今天研

python 爬蟲實戰4 爬取淘寶MM照片

寫真換行符 rip 多行 get sts tool -o true 本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片把每一個MM的寫真圖片按照文件夾保存到本地熟悉文件保存的過程 1.URL的格式在這裏我們用到的URL是 http:/

網路爬蟲：Python+requests+re+xlwt 爬取淘寶商品並把價格和名字寫入Excel表格

由於學東西比較死，不夠靈活，學校的acm實驗室做演算法題，打比賽，我是真的跟不上那些大佬...就看到人以前實驗室退出的，加到其他實驗室學習專案，做專案，做專案相對學習演算法來說，沒有那麼燒腦，還能做出有趣的東西....我就想學習做專案，因為打比賽我是拿不到能看的成績....

Python爬蟲爬取網頁資料並存儲（一）

環境搭建 1.需要事先安裝anaconda（或Python3.7）和pycharm *anaconda可在中科大映象下下載較快 2.安裝中遇到的問題： *anaconda（記得安裝過程中點新增路徑到path裡，沒新增的話手動新增：計算機右鍵屬性——高階系統設

Python爬蟲入門——3.6 Selenium 爬取淘寶資訊

上一節我們介紹了Selenium工具的使用，本節我們就利用Selenium跟Chrome瀏覽器結合來爬取淘寶相關男士羽絨服商品的資訊，當然你可以用相同的方法來爬取淘寶其他商品的資訊。我們要爬取羽絨服的價格、圖片連線、賣家、賣家地址、收貨人數等資訊，並將其儲存在csv中 fr

python爬蟲 爬取淘寶網頁資料

相關推薦

python爬蟲爬取淘寶網頁資料