關於淘寶爬蟲實現的總結和反思

阿新 • • 發佈：2019-01-01

從2014年二月開始打算寫一個爬蟲，至今天初版已經差不多實現了。

由於拖延症和不願意直面困難的懦弱，花了半年的時間才把這麼簡單的一件事情給實現，

確實學習到了不少東西，值得一寫。

13年下半學期由於電子商務和分散式課程接觸到了網際網路的基礎知識，

於是在14年上半學期開始的時候決定去寫一個爬蟲，

由於同時想入門python，所以研究了一下就決定使用scrapy這個框架，

最開始配置環境

後來用了幾天看了scrapy的基本使用方法並且實現了靜態頁面解析

不瞭解xpath於是跑去學xpath

學完xpath之後就基本實現了對靜態網頁的解析了

後來打算爬評論的時候發現是ajax，

又決定去學ajax

這個時候就犯了一個非常嚴重的錯誤，

由於對看了ajax的使用方法之後沒什麼頭緒反正就是把爬蟲這個事情擱置了（直接反映了我這個人真的一點困難都沒法解決）

後來就去學django搭部落格雖然一直搭到現在都沒搭出來

因為搭部落格所以看了看前端然後又每天玩bootstrap玩的不亦樂乎但是還是寫不出什麼正經東西

想和許可一起出國於是報了GRE然後花了不少時間在所謂的準備GRE上最後考的跟shi一樣斷了出國的想法也浪費了很多時間

又去學演算法公開課雖然因為某一次沒有及時提交作業被扣了百分之五十的分就再也沒去學了

後來去看高數打算提高智商然後因為發現智商真是沒救了於是又擱置了

再後來？

再後來許可就生氣了╮(╯▽╰)╭

回憶了一下這段時間過得確實很浪費時間

說是在幹正經事可是都是東玩一下西玩一下一旦遇到了困難立刻撤退

反正不會的東西那麼多，這個入門了學那個完全沒有問題！

但是大三快結束了

再不弄點東西出來的話。。就真的廢了。。

所以要從第一個坑開始填

又開啟命名叫firstscrapy的工程繼續寫爬淘寶

這個時候大三的考試已經結束了

我也找到了一個實習

當然在面實習的時候由於不要臉寫了自己寫了一個淘寶爬蟲

所以被問過很多次關於淘寶爬蟲的事情

講到ajax那裡時都被問到我打算以後怎麼爬ajax

現在再想起來真的好想撞牆QAQ太尼瑪丟人了！！！

我說的是：看js

臥槽我是傻逼嗎！！！

臥槽那群面試的人居然就不動聲色也不提醒我一下！！！！

實際上後來我確實也就這麼做了╮(╯▽╰)╭

開始小學期的時候離實習只差一週了所以我就只有一週的時間實現爬蟲

我看了半周的js（捂臉

還拖著實驗室前端大神李大神跟我一起看QAQ

先用chromeF12找發的查詢串（到這裡我居然還沒有意識到什麼！！！）

然後寫了個指令碼找js裡面的callback

找到了，然後。。就沒有然後了。。

js全是加密過的怎麼看啊！！！！！！！！

不。。我真的看了=。=

我看了一天的js

得出的結論是：換條路走吧

然後就嘗試了模擬操作的splinter，和一些其他的模擬瀏覽器的框架

總是不太滿意（我覺得是因為splinter這個框架的文件太渣了的原因。。）

又重頭開始繼續看網頁。。

然後就出現轉機了

在跟實驗室一個很好玩的學弟講這個問題的時候正在逛北郵人論壇

然後學弟就提建議說可以去演算法版問一問

並且告訴我有人問過這種型別的問題的

看完之前那個帖子之後（帖子裡面主要建議幾乎全部都是模擬瀏覽器操作，看來我真的是選了一個不太好的路。。

就聯絡了唯一一個說看呼叫的介面是blabla的所以可以改掉傳過去的引數之類的人

跟他講了一下我的想法

然後他問我，為什麼要看js？不需要看js啊~

臥槽=。=|||

我好蠢QAQ

我瞬間就知道了。。。

媽蛋我都看到了request的header了！

就可以直接發過去了啊捂臉QAQ

哭了。。。

好了然後這個問題就結束了。。。

我就寫完了爬蟲

其實上這個爬蟲我真正有效果的工作就是

1，環境搭建

2，靜態頁面提取

3，ajax處理

感覺現在讓我寫一天就能解決了QAQ捂臉。。

我真的。。動作太慢了。。

感想大概是：

首先，獨學而無友，則孤陋而寡聞，如果後來不和別人探討這個問題可能我就看一輩子的js了

然後，我真的太蠢了，沒有能夠把學過的知識運用到實際程式設計中的能力……

再然後，生命太短暫我要快一點寫程式碼不然就寫不完了OTZ

最後，特別特別感謝許可，在整個過程中我們爭吵了好多次，但是不是因為你我也完成不了這個坑。

以後的坑的填滿就拜託你了。

雖然你也什麼實際的都沒做←←

差不多就是這樣，下階段解決淘寶封ip和加一些必要的差錯處理，把程式工程化發github，以及寫一個介面出來或者和django結合到一起去。

關於淘寶爬蟲實現的總結和反思

從2014年二月開始打算寫一個爬蟲，至今天初版已經差不多實現了。由於拖延症和不願意直面困難的懦弱，花了半年的時間才把這麼簡單的一件事情給實現，確實學習到了不少東西，值得一寫。 13年下半學期由於電子商務和分散式課程接觸到了網際網路的基礎知識，於是在14年上半學期開始

python爬蟲學習實踐(一)：requests庫和正則表示式之淘寶爬蟲實戰

使用requests庫是需要安裝的，requests庫相比urllib 庫來說更高階方便一點，同時與scrapy相比較還是不夠強大，本文主要介紹利用requests庫和正則表示式完成一項簡單的爬蟲小專案----淘寶商品爬蟲。有關於更多requests庫的使用方法請參考：官方文件第一步：我們先開啟淘寶網頁然後搜

Python 爬取淘寶商品信息和相應價格

獲得 com ppa pri 大小 light parent tps 爬取！只用於學習用途！ plt = re.findall(r‘\"view_price\"\:\"[\d\.]*\"‘,html) ：獲得商品價格和view_price字段，並保存在plt中 tlt =

css-淘寶網站——實現幾張圖片橫排中間沒有空隙

淘寶網站——實現幾張圖片橫排中間沒有空隙凡是帶有inline的元素都有文字特性，有文字屬性就該被分割。 1.<img src="1.jpg"> <img src="1.jpg">

基於JAVA解決淘寶爬蟲限制

不僅僅限於java 前言驗證碼識別工具分析編碼資料演示後記前言以前做過淘客開發，那時候高傭api很少，高傭的辦法就是查詢商品模擬轉鏈為高傭，但是後來淘寶慢慢禁止了爬蟲一直

對一次架構設計的總結和反思

　　最近做了一次架構（流程）的設計，簡單來說，是設計一個流程，提供相應的API，方便其他程式設計師將業務邏輯逐步遷移到另一套框架。在完成這次設計的過程中，還是有許多經驗、教訓，值得思考和記錄。其實，這些經驗總結，可能在其他地方看到過，也聽別人分享過，不過只是“夫子言之,於我心有慼慼焉”，只有當自己親身經歷過，

cnpm（淘寶映象）安裝和使用

為什麼要用cnpm？因為在國內cnpm比npm的安裝速度更快安裝前置條件：已安裝node.js 開啟dos命令列視窗執行npm install -g cnpm --registry=https://registry.npm.taobao.org安裝映象使用c

Android程式設計師工作學習上的總結和反思

不知不覺，已經工作3年了，從最開始的Android開發的小白，到現在專注於做音視訊領域，我感覺自己的技術能力沒有得到提升，屬於那種停留在知其然不知其所以然的層面，通過近日來的不斷的總結與反思，找到自己以下幾點的學習態度和方法上的問題遇到問題，沒有進行仔細分析，就直接百

ie相容響應式佈局的實現總結和針對ie瀏覽器的CSS

ie瀏覽器hack .demo { padding:10px; padding:9px\9; /* all ie */ padding:8px\0; /* ie8-9 目前應用於IE8的單獨hack，情況比較少 */ *padding:5px; /* ie6

Python2.7 淘寶爬蟲selenium 模擬瀏覽器

encoding=utf8 import re from pyquery import PyQuery as pq from selenium import webdriver from selenium.webdriver.common.by import By from

網站推廣第一週總結和反思

這個周，開始了ITFriend第一輪的推廣。主要是發表了“我的大學，我的夢想”等勵志類和技術類文章，通過QQ空間、QQ群、新浪微博等社交媒體，CSDN等部落格傳播，當然更重要的是熟人朋友之間的互相傳播，註冊使用者量超過了500，也就是說我的夢想，已經實現了萬分之一。本週遇到的

開學之後的總結和反思

暑假感覺時間很多，但是轉眼間時間就都過去了，現在已經開學一個多月了，看了部落格更新進度就能看出來，鬆懈的不是一點半點，總是自己欺騙自己，以後會學的，現在先玩一會，殊不知，明日復明日，明日何其多？將自己的時間放在無聊的事情上面，毫無意義，做幾道水題心裡面也沒有絲毫的成就感，猶

【python 淘寶爬蟲】淘寶信譽分抓取

一、需求分析輸入旺旺號，獲取淘寶賣家的信用分二、思路淘寶需要模擬登陸，我們這裡抓不到，因此為了繞過登陸，發現了淘一兔，我們可以通過這裡，得到淘寶賣家的信用分，結果是一樣的。 http:

歷經8年雙11流量洗禮，淘寶開放平臺架構和技術難點解密

高效能批量API呼叫在雙11高併發的場景下，對商家和ISV的系統同樣是一個考驗，如何提高ISV請求API的效能，降低請求RT和網路消耗同樣是一個重要的事情。在ISV開發的系統中通常存在這樣的邏輯單元，需要呼叫多個API才能完成某項業務，在這種序列呼叫模式下RT較長同時多次呼叫傳送較多重複的

PYTHON 爬蟲筆記十:利用selenium+PyQuery實現淘寶美食數據搜集並保存至MongeDB（實戰項目三）

pre pager 淘寶 NPU group color 存在 pan rgs 利用selenium+PyQuery實現淘寶美食數據搜集並保存至MongeDB 目標站點分析流程框架爬蟲實戰 spider詳情頁 import pymongo im

python爬蟲爬取淘寶，羅蘭電鋼琴和雅馬哈電鋼琴（參考崔大）

淘寶網上有很多商品，這些商品的資訊就是一個很不錯的資料來源，於是我參考資料後依葫蘆畫瓢弄了一個爬蟲程式來爬一爬夢寐以求的電鋼琴。宣告一下：電鋼琴和電子琴是兩種不同的琴，我在正則表示式裡面設定了只要含有電子琴這個詞語一律不抓取。同時淘寶商家的很多商品欄都是重複的，不加篩選前

mvp實現Xrecyclerview的上下拉和購物車功能（仿淘寶）

首先先匯入我們要使用的依賴 implementation 'com.android.support:design:28.0.0' implementation 'com.google.code.gson:gson:2.8.5' implementation 'cn.bingoo

原生js實現淘寶輪播圖，支援左右和跳轉（滑鼠點多快都不會亂）。

用transform是因為這個比left的效能好。這個是演示網址（不要直接存下來哦）：https://shalltears.github.io/test-sowing-map/ 。這個是完整程式碼下載地址，覺得還行的下載支援一下：https://download.csdn.ne

使用python爬蟲——爬取淘寶圖片和知乎內容

本文主要內容：目標：使用python爬取淘寶圖片；使用python的一個開源框架pyspider（非常好用，一個國人寫的）爬取知乎上的每個問題，及這個問題下的所有評論最簡單的爬蟲——如下python程式碼爬取淘寶上模特圖片爬

網路爬蟲：Python+requests+re+xlwt 爬取淘寶商品並把價格和名字寫入Excel表格

由於學東西比較死，不夠靈活，學校的acm實驗室做演算法題，打比賽，我是真的跟不上那些大佬...就看到人以前實驗室退出的，加到其他實驗室學習專案，做專案，做專案相對學習演算法來說，沒有那麼燒腦，還能做出有趣的東西....我就想學習做專案，因為打比賽我是拿不到能看的成績....

關於淘寶爬蟲實現的總結和反思

相關推薦