python 爬蟲分析30年香港電影

阿新 • • 發佈：2018-12-30

後者線程註意點優秀數據正文會有 mongo 香港

　　前言　

　　上個禮拜接觸爬蟲，本身對香港電影比較感興趣，這2天就去拿豆瓣數據做了份香港近30年電影的分析

　　正文

　　數據來源豆瓣

　　　　技術分享圖片

　　　　這些路徑是有規律，設置好循環條件，拿到電影url在進行下一步，在這之前有一部分電影我們過濾掉，典型的就是沒有評分的電影，沒有評分電影大部分是演出晚會，B級片等電影，

讀者有興趣可以查下,這些電影的數據可用性差我不來拿分析，香港上世紀90-99電影總數2700+，過濾後拿到的1100+。近30年電影初步得到是2500+

　　技術分享圖片

　　然後分析頁面結構，電影名會有多的，我是空格分開後取的第一個，簡體字電影名排在首位，靜態頁面的數據爬取比較簡單這裏有幾個註意點

　　　　一：頁面結構要多種預計（有點頁面沒有導演或者編劇這些情況）

　　　　二:遇到ip封禁的設定時，登陸後拿自己賬號cookies加入headers, 或者自己定義ip(r=requests.get(url,proxies={‘http‘:random.choice(pro)},headers=head))

　　多線程分配url任務時，因為我用的是mysql，遇到一個鎖表的問題，這個作為以後學習點，不過使用MongoDB這種非關系數據庫就沒有這種問題

　　數據結果

　　　　可視化的有的是echarts：

　　　　一：香港歷年電影

技術分享圖片

　　在1993-1995年和 2000-2001是香港電影的鼎盛時期，前者有霸王別姬，東邪西毒，活著，與大話西遊系列，後者有花樣年華，臥虎藏龍，無間道這些優秀

影片,在94,95巔峰後年電影有下降的趨勢應該是97香港回歸的影響，在回歸後的2000左右穩定，並且再次有峰值。

　　二：導演

　　技術分享圖片

　　三：演員

　　張國榮(2008年的為東西吸毒終極版)

技術分享圖片

周星馳

技術分享圖片

劉德華

技術分享圖片

還有很多蠻有趣的數據就不都展示，這段時間體會到爬蟲的樂趣，後面往圖像處理方向學習

python 爬蟲分析30年香港電影

後者線程註意點優秀數據正文會有 mongo 香港　　前言　　　上個禮拜接觸爬蟲，本身對香港電影比較感興趣，這2天就去拿豆瓣數據做了份香港近30年電影的分析　　正文　　數據來源豆瓣　　　　　　　　　　　　這些路徑是有規律，設置好循環條件，

python 爬蟲分析30年香港電影

python 爬蟲分析30年香港電影

團隊-張文然-需求分析-python爬蟲分類爬取豆瓣電影信息

python爬蟲-爬取愛情公寓電影（2018）豆瓣短評並資料分析

Python爬蟲入門 | 爬取豆瓣電影信息

Python爬蟲教程-30-Scrapy 爬蟲框架介紹

Python爬蟲：爬取網站電影資訊

11月10日python爬蟲分析網頁的模組lxml和Beautiful Soup

python爬蟲--爬取豆瓣top250電影名

NO.31——Python爬蟲分析馬蜂窩十一假期城市旅遊資料

python爬蟲，爬取豆瓣電影《芳華》電影短評，分詞生成雲圖。

python爬蟲，爬取貓眼電影top100

python爬蟲（爬取豆瓣電影）_動態網頁,json解釋,中文編碼

[python爬蟲入門]爬取豆瓣電影排行榜top250

Python爬蟲小案例：豆瓣電影TOP250

Python爬蟲之抓取貓眼電影TOP100

python爬蟲登陸豆瓣爬豆瓣電影短評

python爬蟲：爬取貓眼電影（分數的處理和多執行緒）

python爬蟲實戰-爬取貓眼電影榜單top100

python爬蟲——requests抓取某電影網站top100

python爬蟲練習1:豆瓣電影TOP250

python 爬蟲分析30年香港電影

相關推薦