1. 程式人生 > >用Python分分鐘爬取豆瓣本週口碑榜,就是有這麼秀!

用Python分分鐘爬取豆瓣本週口碑榜,就是有這麼秀!

平常在生活中,不知道大家是怎麼找電影的,反正小編是通過電影本週口碑榜來找的,個人感覺通過這種方式找來的電影都挺不錯的。既然提到口碑榜,不如我們來爬下豆瓣電影本週口碑榜上的電影吧,怎麼爬嘞,當然是用我們的Python爬蟲啦!下面開始簡單的介紹如何寫爬蟲。

用Python分分鐘爬取豆瓣本週口碑榜,就是有這麼秀!

 

在寫爬蟲前,我們首先簡單明確兩點:

1. 爬蟲的網址;

2. 需要爬取的內容(資料)。

 

用Python分分鐘爬取豆瓣本週口碑榜,就是有這麼秀!

 

 

用Python分分鐘爬取豆瓣本週口碑榜,就是有這麼秀!

 

 

  1. 滑鼠點選需要爬取的資料,這裡我們點“看不見的客人”,如圖所示。
用Python分分鐘爬取豆瓣本週口碑榜,就是有這麼秀!

 

  1. 看到大紅色框框裡的東西,是不是和我們最“重要”的程式碼有很多相似的地方。
  2. 再看來最後一行程式碼中最“重要”的部分。
  3. ‘//td[@class=”title”]//a/text()’
  • //td :這個相當於指定是大目錄;
  • [@class=”title”]:這個相當於指定的小目錄;
  • //a :這個相當於最小的目錄;
  • /text():這個是提取其中的資料。

爬蟲介紹結束,看完你也該試試手了。

試試爬“即將上映”

用Python分分鐘爬取豆瓣本週口碑榜,就是有這麼秀!

 

 

這個只需將最後一行程式碼改成

result=tree.xpath('//li[@class="title"]//a/text()')1

如圖所示“即將上映”的電影就被你爬下來了。

是不是覺得爬蟲真的很簡單,已經完全學會了。然而現實中,爬蟲會面臨很多問題的,比如:

1. 頁面規則不統一;

2. 爬下來的資料處理;

3. 反爬蟲機制。

等等很多很多類似的各種問題,想要成為真的Python爬蟲大神,還是得一步一步來的,飯要一口一口吃的嘛!

用Python分分鐘爬取豆瓣本週口碑榜,就是有這麼秀!

 

 

以上就是本文的全部內容,希望對各位小夥伴們有所幫助!

寫在最後:

有想學Python或者對Python感興趣的老鐵,可以加群571799375,群裡有適合Python初學者學習的資料(2018最新版Python資料),免費送給大家!

本文來自網路,如有侵權,請聯絡小編刪除!