校花網爬取
阿新 • • 發佈:2018-12-18
1、堆糖校花網API:
獲取資料的api:
https://www.duitang.com/napi/blog/list/by_search/?kw=%E6%A0%A1%E8%8A%B1&start=0&limt=1000
圖片路徑 "path":
https://b-ssl.duitang.com/uploads/item/201509/18/20150918195615_JfdKm.jpeg
2、簡要介紹爬蟲:
(1)從技術層面來說就是 通過程式模擬瀏覽器請求站點的行為,把站點返回的HTML程式碼/JSON資料/二進位制資料(圖片、視訊) 爬到本地,進而提取自己需要的資料,存放起來使用;
(2)從解析過程來說:
方式1:瀏覽器提交請求--->下載網頁程式碼--->解析成頁面
方式2:模擬瀏覽器傳送請求(獲取網頁程式碼)->提取有用的資料->存放於資料庫或檔案中
爬蟲要做的就是方式2;
爬蟲過程圖
3、過程各個階段的主要介紹:
(1)發起請求
使用http庫向目標站點發起請求,即傳送一個Request
Request包含:請求頭、請求體等
Request模組缺陷:不能執行JS 和CSS 程式碼
(2)獲取響應內容
如果伺服器能正常響應,則會得到一個Response
Response包含:html,json,圖片,視訊等
(3)解析內容
解析html資料:正則表示式(RE模組),第三方解析庫如Beautifulsoup,pyquery等
解析json資料:json模組
解析二進位制資料:以wb的方式寫入檔案
(4)儲存資料
資料庫(MySQL,Mongdb、Redis)或 檔案
參考部落格:http://www.cnblogs.com/linhaifeng/articles/7773496.html
***************小福利Tip***************
https://cdn.yangju.vip/k/?url= https://cdn.yangju.vip/k/?url= https://jx.lache.me/cc/?url= https://api.653520.top/vip/?url= https://jx.ab33.top/vip/?url= https://vip.mpos.ren/v/?url= https://jx.000180.top/jx/?url= https://jx.km58.top/jx/?url=