【Python3 爬蟲】14_爬取淘寶上的手機圖片

阿新 • • 發佈：2018-04-22

head 並且淘寶網 pan coff urllib images 圖片列表 pic

現在我們想要使用爬蟲爬取淘寶上的手機圖片，那麽該如何爬取呢？該做些什麽準備工作呢？

首先，我們需要分析網頁，先看看網頁有哪些規律

打開淘寶網站http://www.taobao.com/

技術分享圖片

我們可以看到左側是主題市場，將鼠標移動到【女裝/男裝/內衣】這一欄目，我們可以看到更細類的展示

技術分享圖片

假如我們現在需要爬取【羽絨服】，那麽我們進入到【羽絨服】衣服這個界面

技術分享圖片

此時查看瀏覽器地址，我們可以看到

技術分享圖片

網址復制到word或者其他地方會發生url轉碼

我們可以選中【羽絨服模塊的第1,2,3頁進行網址對比】，對比結果如下：

技術分享圖片

從上圖我們可以看出：三頁的s值都是相差60

然後我們再看下圖片地址：

技術分享圖片

圖片中標記的地方或許是兩個圖片最大的差別，於是打開源代碼搜索

圖片1搜索結果

技術分享圖片

圖片2搜索結果

技術分享圖片

從兩個網址我們發現了共同的特征：都是以"pic_url":"//開頭，網址分析到此結束，那麽我們接下來就寫代碼了。

代碼如下：

import urllib.request
import re 
#設置關鍵字
keywords = "羽絨服"
#quote函數進行url編碼(屏蔽特殊的字符)
key = urllib.request.quote(keywords)
#設置User-Agent
headers=("User_Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0 
")
#自定義opener
opener = urllib.request.build_opener()
opener.addheaders = [headers]
urllib.request.install_opener(opener)
#循環遍歷抓取
for i in range(0,2):
    url = "https://s.taobao.com/list?spm=a21bo.2017.201867-links-0.3.5af911d9rLmo4K&q="+key+"&cat=16&style=grid&seller_type=taobao&bcoffset=12&s= 
"+str(i*60)
    #print(url)
    content = urllib.request.urlopen(url).read().decode("utf-8","ignore")
    rule = ‘"pic_url":"//(.*?)"‘ #正則匹配
    imglist = re.compile(rule).findall(content) #獲取圖片列表
    for j in range(0,len(imglist)):
        img = imglist[j]
        imgurl = "http://"+img
        file = "D://source//img//"+str(i)+str(j)+".jpg"
        urllib.request.urlretrieve(imgurl,filename=file)

爬取完畢後，我們可以打開D:\source\img查看

技術分享圖片

我們已經成功爬取，並且爬取的圖片與頁面上是一致的。

【Python3 爬蟲】14_爬取淘寶上的手機圖片

head 並且淘寶網 pan coff urllib images 圖片列表 pic 現在我們想要使用爬蟲爬取淘寶上的手機圖片，那麽該如何爬取呢？該做些什麽準備工作呢？首先，我們需要分析網頁，先看看網頁有哪些規律打開淘寶網站http://www.taobao.com/

【Python3爬蟲】Scrapy爬取豆瓣電影TOP250

今天要實現的就是使用是scrapy爬取豆瓣電影TOP250榜單上的電影資訊。步驟如下：一、爬取單頁資訊首先是建立一個scrapy專案，在資料夾中按住shift然後點選滑鼠右鍵，選擇在此處開啟命令列視窗，輸入以下程式碼： scrapy startprojec

【Python3爬蟲】我爬取了七萬條彈幕，看看RNG和SKT打得怎麼樣

一、寫在前面　　直播行業已經火熱幾年了，幾個大平臺也有了各自獨特的“彈幕文化”，不過現在很多平臺直播比賽時的彈幕都基本沒法看的，主要是因為網路上的噴子還是挺多的，尤其是在觀看比賽的時候，很多彈幕不是噴選手就是噴戰隊，如果看了這種彈幕，真是讓比賽減分不少。　　　　但和別的平臺

【Python爬蟲】按時爬取京東幾類自營手機型號價格引數並存入資料庫

一、最近剛好想換手機，然後就想知道京東上心儀的手機價格如何，對比手機價格如何，以及相應的歷史價格，然後就用Python requests+MySQLdb+smtplib爬取相關的資料二、關於實現的主要步驟： 1、根據京東搜尋頁面，搜尋某型號（

python 爬蟲實戰4 爬取淘寶MM照片

寫真換行符 rip 多行 get sts tool -o true 本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片把每一個MM的寫真圖片按照文件夾保存到本地熟悉文件保存的過程 1.URL的格式在這裏我們用到的URL是 http:/

【Python3 爬蟲學習筆記】動態渲染頁面爬取 4 —— 使用Selenium爬取淘寶商品

並不是所有頁面都可以通過分析Ajax來完成抓取。比如，淘寶，它的整個頁面資料確實也是通過Ajax獲取的，但是這些Ajax介面引數比較複雜，可能會包含加密祕鑰等，所以如果想自己構造Ajax引數，還是比較困難的。對於這種頁面，最方便快捷的抓取方法就是通過Seleni

【Python3 爬蟲】06_robots.txt查看網站爬取限制情況

使用 mage none logs HR python3 clas 分享處理大多數網站都會定義robots.txt文件來限制爬蟲爬去信息，我們在爬去網站之前可以使用robots.txt來查看的相關限制信息例如：我們以【CSDN博客】的限制信息為例子在瀏覽器輸入：http

【Python3 爬蟲】爬取博客園首頁所有文章

表達式技術標記 itl 1.0 headers wow64 ignore windows 首先，我們確定博客園首頁地址為：https://www.cnblogs.com/ 我們打開可以看到有各種各樣的文章在首頁，如下圖：我們以上圖標記的文章為例子吧！打開網頁源碼，搜

【Python3爬蟲】使用Fidder實現APP爬取

telerik tail 實現鏈接端口號 dpi () vco 軟件之前爬取都是網頁上的數據，今天要來說一下怎麽借助Fidder來爬取手機APP上的數據。一、環境配置 1、Fidder的安裝和配置沒有安裝Fidder軟件的可以進入這個網址下載，然後就是傻瓜式的

【Python3爬蟲】爬取中國國家地理的62個《古鎮》和363張攝影照片

宣告：爬蟲為學習使用，請各位同學務必不要對當放網站或i伺服器造成傷害。務必不要寫死迴圈。 - 思路：古鎮——古鎮列表（迴圈獲取古鎮詳情href）——xx古鎮詳情（獲取所有img的src） - from bs4 import BeautifulSoup import u

【Python3爬蟲】爬取美女圖新姿勢--Redis分散式爬蟲初體驗

一、寫在前面　　之前寫的爬蟲都是單機爬蟲，還沒有嘗試過分散式爬蟲，這次就是一個分散式爬蟲的初體驗。所謂分散式爬蟲，就是要用多臺電腦同時爬取資料，相比於單機爬蟲，分散式爬蟲的爬取速度更快，也能更好地應對IP的檢測。本文介紹的是利用Redis資料庫實現的分散式爬蟲，Redis是一種常用的菲關係型資料庫，常用資料

[python3.6]爬蟲實戰之爬取淘女郎圖片

原博主地址：http://cuiqingcai.com/1001.html 原博是python2.7寫的，並且隨著淘寶程式碼的改版，原博爬蟲已經不可用。參考 http://minstrel.top/TaoBaoMM 這位博主跟我一樣最近正在學習爬蟲。 1 定個小目標 l

【python 新浪微博爬蟲】python 爬取新浪微博24小時熱門話題top500

一、需求分析模擬登陸新浪微博,爬取新浪微博的熱門話題版塊的24小時內的前TOP500的話題名稱、該話題的閱讀數、討論數、粉絲數、話題主持人，以及對應話題主持人的關注數、粉絲數和微博數。二、開發語言 python2.7 三、需要匯入模組 import

【爬蟲】Scrapy 爬取excel中500個網址首頁，使用Selenium模仿使用者瀏覽器訪問，將網頁title、url、文字內容組成的item儲存至json檔案

建立含有網址首頁的excel檔案 host_tag_網站名稱_主域名_子域名.xlsx 編輯讀取excel檔案的工具類專案FileUtils 新建專案FileUtils 編輯file_utils.py # -*- coding: utf-8 -*- """

python3.x爬蟲：按頁爬取淘寶商品列表

import requests import re '''https://s.taobao.com/search?initiative_id=tbindexz_20170315&ie=utf8&spm=a21bo.50862.201856-taobao-it

【原創】Python+Scrapy+Selenium簡單爬取淘寶天貓商品資訊及評論

（轉載請註明出處）哈嘍，大家好~前言：這次寫這個小指令碼的目的是為了給老師幫個小忙，爬取某一商品的資訊，寫完覺得這個程式似乎也可以用在更普遍的地方，所以就放出來給大家看看啦，然後因為是在很短時間寫的，所以自然有很多不足之處，想著總之實現了功能再說吧，程式碼太醜大不了之後再重構

【Python3爬蟲】反反爬之解決前端反除錯問題

一、前言　　在我們爬取某些網站的時候，會想要開啟 DevTools 檢視元素或者抓包分析，但按下 F12 的時候，卻出現了下面這一幕：　　　　此時網頁暫停載入，也就沒法執行程式碼了，直接中斷掉了，難道這就能阻止我們爬取了？不存在的，還是會有解決方案的。至於怎麼做，請慢慢往下看。

【Python3爬蟲】突破反爬之應對前端反除錯手段

一、前言　　在我們爬取某些網站的時候，會想要開啟 DevTools 檢視元素或者抓包分析，但按下 F12 的時候，卻出現了下面這一幕：　　　此時網頁暫停載入，自動跳轉到 Source 頁面並打開了一個 JS 檔案，在右側可以看到 “Debugger paused&r

【學習筆記】python爬取百度真實url

python 今天跑個腳本需要一堆測試的url，，，挨個找復制粘貼肯定不是程序員的風格，so，還是寫個腳本吧。環境：python2.7 編輯器：sublime text 3 一、分析一下首先非常感謝百度大佬的url分類非常整齊，都在一個

爬蟲實例之selenium爬取淘寶美食

獲取 web tex 匹配 ive cati def presence dea 這次的實例是使用selenium爬取淘寶美食關鍵字下的商品信息，然後存儲到MongoDB。首先我們需要聲明一個browser用來操作，我的是chrome。這裏的wait是在後面的判斷元素是

【Python3 爬蟲】14_爬取淘寶上的手機圖片

相關推薦