1. 程式人生 > >校花網爬取

校花網爬取

1、堆糖校花網API:

獲取資料的api:

 https://www.duitang.com/napi/blog/list/by_search/?kw=%E6%A0%A1%E8%8A%B1&start=0&limt=1000

圖片路徑 "path":

 https://b-ssl.duitang.com/uploads/item/201509/18/20150918195615_JfdKm.jpeg

2、簡要介紹爬蟲:

(1)從技術層面來說就是 通過程式模擬瀏覽器請求站點的行為,把站點返回的HTML程式碼/JSON資料/二進位制資料(圖片、視訊) 爬到本地,進而提取自己需要的資料,存放起來使用;

(2)從解析過程來說:

方式1:瀏覽器提交請求--->下載網頁程式碼--->解析成頁面

方式2:模擬瀏覽器傳送請求(獲取網頁程式碼)->提取有用的資料->存放於資料庫或檔案中

爬蟲要做的就是方式2;

爬蟲過程圖

3、過程各個階段的主要介紹:

(1)發起請求

使用http庫向目標站點發起請求,即傳送一個Request

Request包含:請求頭、請求體等 

Request模組缺陷:不能執行JS 和CSS 程式碼

(2)獲取響應內容

如果伺服器能正常響應,則會得到一個Response

Response包含:html,json,圖片,視訊等

 (3)解析內容

解析html資料:正則表示式(RE模組),第三方解析庫如Beautifulsoup,pyquery等

解析json資料:json模組

解析二進位制資料:以wb的方式寫入檔案

 (4)儲存資料

資料庫(MySQL,Mongdb、Redis)或   檔案

參考部落格:http://www.cnblogs.com/linhaifeng/articles/7773496.html

***************小福利Tip***************

https://cdn.yangju.vip/k/?url=
https://cdn.yangju.vip/k/?url=

https://jx.lache.me/cc/?url=

https://api.653520.top/vip/?url=

https://jx.ab33.top/vip/?url=

https://vip.mpos.ren/v/?url=

https://jx.000180.top/jx/?url=

https://jx.km58.top/jx/?url=