1. 程式人生 > >python 爬蟲分析30年香港電影

python 爬蟲分析30年香港電影

後者 線程 註意點 優秀 數據 正文 會有 mongo 香港

   前言 

   上個禮拜接觸爬蟲,本身對香港電影比較感興趣,這2天就去拿豆瓣數據做了份香港近30年電影的分析

  正文

  數據來源豆瓣

    技術分享圖片

    技術分享圖片

    這些路徑是有規律 ,設置好循環條件,拿到電影url在進行下一步,在這之前有一部分電影我們過濾掉,典型的就是沒有評分的電影,沒有評分電影大部分是演出晚會,B級片等電影,

讀者有興趣可以查下,這些電影的數據可用性差我不來拿分析,香港上世紀90-99電影總數2700+,過濾後拿到的1100+。近30年電影初步得到是2500+

  技術分享圖片

  然後分析頁面結構,電影名會有多的 ,我是空格分開後取的第一個,簡體字電影名排在首位,靜態頁面的數據爬取比較簡單這裏有幾個註意點

    一:頁面結構要多種預計 (有點頁面沒有導演或者編劇這些情況)

    二:遇到ip封禁的 設定時 ,登陸後拿自己賬號cookies加入headers, 或者自己定義ip(r=requests.get(url,proxies={‘http‘:random.choice(pro)},headers=head))

  多線程分配url任務時 ,因為我用的是mysql,遇到一個鎖表的問題,這個作為以後學習點,不過使用MongoDB這種非關系數據庫就沒有這種問題

  數據結果

    可視化的有的是echarts:

    一:香港歷年電影

技術分享圖片

  在1993-1995年和 2000-2001是香港電影的鼎盛時期 ,前者有霸王別姬,東邪西毒,活著,與大話西遊系列,後者有花樣年華,臥虎藏龍,無間道這些優秀

影片,在94,95巔峰後年電影有下降的趨勢應該是97香港回歸的影響,在回歸後的2000左右穩定,並且再次有峰值。

  二:導演

  技術分享圖片

  三:演員

  張國榮(2008年的為東西吸毒終極版)

技術分享圖片

周星馳

技術分享圖片

劉德華

技術分享圖片

還有很多蠻有趣的數據就不都展示,這段時間體會到爬蟲的樂趣,後面往圖像處理方向學習

      

  

python 爬蟲分析30年香港電影