用Python分分鐘爬取豆瓣本週口碑榜,就是有這麼秀!
阿新 • • 發佈:2018-12-28
平常在生活中,不知道大家是怎麼找電影的,反正小編是通過電影本週口碑榜來找的,個人感覺通過這種方式找來的電影都挺不錯的。既然提到口碑榜,不如我們來爬下豆瓣電影本週口碑榜上的電影吧,怎麼爬嘞,當然是用我們的Python爬蟲啦!下面開始簡單的介紹如何寫爬蟲。
在寫爬蟲前,我們首先簡單明確兩點:
1. 爬蟲的網址;
2. 需要爬取的內容(資料)。
- 滑鼠點選需要爬取的資料,這裡我們點“看不見的客人”,如圖所示。
- 看到大紅色框框裡的東西,是不是和我們最“重要”的程式碼有很多相似的地方。
- 再看來最後一行程式碼中最“重要”的部分。
- ‘//td[@class=”title”]//a/text()’
- //td :這個相當於指定是大目錄;
- [@class=”title”]:這個相當於指定的小目錄;
- //a :這個相當於最小的目錄;
- /text():這個是提取其中的資料。
爬蟲介紹結束,看完你也該試試手了。
試試爬“即將上映”
這個只需將最後一行程式碼改成
result=tree.xpath('//li[@class="title"]//a/text()')1
如圖所示“即將上映”的電影就被你爬下來了。
是不是覺得爬蟲真的很簡單,已經完全學會了。然而現實中,爬蟲會面臨很多問題的,比如:
1. 頁面規則不統一;
2. 爬下來的資料處理;
3. 反爬蟲機制。
等等很多很多類似的各種問題,想要成為真的Python爬蟲大神,還是得一步一步來的,飯要一口一口吃的嘛!
以上就是本文的全部內容,希望對各位小夥伴們有所幫助!
寫在最後:
有想學Python或者對Python感興趣的老鐵,可以加群571799375,群裡有適合Python初學者學習的資料(2018最新版Python資料),免費送給大家!
本文來自網路,如有侵權,請聯絡小編刪除!