Python爬取微博APP
阿新 • • 發佈:2018-12-18
全文簡介
本文是用Python爬取微博移動端的資料。可以看一下Robots協議。另外儘量不要爬取太快。如果你毫無節制的去爬取別人資料,別人網站當然會反爬越來越嚴厲。所以,不要難為別人,到最後其實是在難為你自己。至於為什麼不爬PC端,原因是移動端較簡單,很適合爬蟲新手入門。有時間再寫PC端吧!
環境介紹
- Python3
- Windows-10-64位
- 微博移動端
網頁分析
以獲取評論資訊為例(你可以以自己的喜好獲得其他資料)。如下圖:
在這裡就會涉及到一個動態載入的概念,也就是我們只有向下滑動滑鼠滾輪才會加載出更多的評論資料。這也是網頁經常使用的方式。接下來就應該找到評論資訊的真實網址,找到真實網址的方法就是開啟瀏覽器的開發者工具,火狐/谷歌是F12鍵。開啟如下:
開啟以後點選網路,網路用來記錄瀏覽器和伺服器交換的資訊。接下來將滑鼠滾輪緩慢向下滾動,在這個過程中就會彈出類似於上圖的資訊,也就是評論資訊加載出來了。找到評論資訊,應該會在第一條。如下圖:
將網址在火狐裡面開啟如下圖:
上面的網址其實pages=3就代表第三頁,所以只需模擬網址即可,pages=4,5,6。。。。
另外由於是Json檔案,所以提取資料非常方便,只需用切片操作即可。
Python程式碼
程式碼寫的醜,湊合著看吧。