python 爬蟲分析30年香港電影
前言
上個禮拜接觸爬蟲,本身對香港電影比較感興趣,這2天就去拿豆瓣數據做了份香港近30年電影的分析
正文
數據來源豆瓣
這些路徑是有規律 ,設置好循環條件,拿到電影url在進行下一步,在這之前有一部分電影我們過濾掉,典型的就是沒有評分的電影,沒有評分電影大部分是演出晚會,B級片等電影,
讀者有興趣可以查下,這些電影的數據可用性差我不來拿分析,香港上世紀90-99電影總數2700+,過濾後拿到的1100+。近30年電影初步得到是2500+
然後分析頁面結構,電影名會有多的 ,我是空格分開後取的第一個,簡體字電影名排在首位,靜態頁面的數據爬取比較簡單這裏有幾個註意點
一:頁面結構要多種預計 (有點頁面沒有導演或者編劇這些情況)
二:遇到ip封禁的 設定時 ,登陸後拿自己賬號cookies加入headers, 或者自己定義ip(r=requests.get(url,proxies={‘http‘:random.choice(pro)},headers=head))
多線程分配url任務時 ,因為我用的是mysql,遇到一個鎖表的問題,這個作為以後學習點,不過使用MongoDB這種非關系數據庫就沒有這種問題
數據結果
可視化的有的是echarts:
一:香港歷年電影
在1993-1995年和 2000-2001是香港電影的鼎盛時期 ,前者有霸王別姬,東邪西毒,活著,與大話西遊系列,後者有花樣年華,臥虎藏龍,無間道這些優秀
影片,在94,95巔峰後年電影有下降的趨勢應該是97香港回歸的影響,在回歸後的2000左右穩定,並且再次有峰值。
二:導演
三:演員
張國榮(2008年的為東西吸毒終極版)
周星馳
劉德華
還有很多蠻有趣的數據就不都展示,這段時間體會到爬蟲的樂趣,後面往圖像處理方向學習
python 爬蟲分析30年香港電影