爬蟲抓取美團網上所有商家資訊
阿新 • • 發佈:2019-01-06
由於美團網對於IP訪問次數有限制,當訪問達到一定次數美團會增加延遲,訪問次數再增加時就會有驗證碼,所以爬取時就需要注意控制訪問的頻率,以及訪問一定次數後更換代理IP.
在爬取過程中我們可以先抓取所有的城市資料所有城市資料.
檢視頁面程式碼時發現很有規律,所以可以很容易抓取:
獲取到城市的資料儲存到txt檔案中,接下來 我們就要先獲取到分類資訊:
獲取這些資料到時候用來拼接成url連結,由於美團商家資料有些是用ajax載入的,雖然有辦法處理 但是比較麻煩所以我覺定,分類獲取區/縣和商圈 這樣就可以不用處理ajax載入的情況.
再拼接之前獲取到的型別,這樣我們就可以獲取到一個商圈的一個小類,這是比較小的範圍所以沒有太多的商家,為了方便下次爬取資料,我先把商家的url儲存下來,再進到每個商家裡獲取資料.
獲取到所有的商家的url後,現在就到我們的最後一步了,但是要注意的是不同種類型的資料頁面是不同的.比如酒店
所以對於不同種類型,需要寫不同的解析函式.最後就是爬取的時候不應該追求快,美團限制很嚴,最好多執行緒 幾秒請求一次.接下來就慢慢讓它跑了.最後我跑了兩個多星期才跑完全部.
分為四大類:
電影院 8195個
酒店 211129
美食大類 490928
生活大類 432803
總共 115萬 條資料
這裡就只說明爬取的邏輯 不提供程式碼,有能力的同學自己寫,沒能力問別人怎麼寫.
日期 2017-04-04
如果需要這份資料 可以聯絡我:zhenpeng_lin#qq.com #換成@