1. 程式人生 > 其它 >電影資料集資料視覺化分析

電影資料集資料視覺化分析

一、資料描述

1.1、資料集描述

movies資料框包含45456行,有共10列,有adult,belongs_to_collection,budget,genres,homepage等24個,對應每個電影的的一些特徵。

type:型別

director:導演

country:國家

keyword:關鍵字

score:評分

belongs_to_collection:歸屬

popularity:聲望

revenue:收入

vote_average:平均投票

vote_count:投票數

1.2、資料展示

1.3、專案操作流程

1.4、匯入資料

二、問題提出

(1)不同國家電影產量是否存在差異?若有,電影產量最大的是哪個國家,佔多少份額?

(2)哪些國家制作的電影在平均水平上更傾向獲得觀眾的高評分?

(3)電影的型別構成是怎麼樣的?電影占比較大的是哪些型別的電影?

(4)不同型別電影的評分分佈情況,哪些型別的電影更傾向於獲得觀眾好評?

三、資料清洗和預處理

處理完的表格:

四、各變數相關性資料分析與視覺化

(1)、不同國家電影產量是否存在差異?若有,電影產量最大的是哪個國家,佔多少份額?資料顯示,電影的產地可能不止一個國家,對於多產地的電影,對於其中任一產地國都不算一部嚴格意義上的電影,所以此項研究的範圍僅限於單產地電影的分析。

(2)、哪些國家制作的電影在平均水平上更傾向獲得觀眾的高評分?

(3)、電影的型別構成是怎麼樣的?電影占比較大的是哪些型別的電影?

在所有電影中,戲劇電影、喜劇電影、恐怖電影比較受制片人青睞,三種類型的市場份額依次遞減。

(4)、不同型別電影的評分分佈情況,哪些型別的電影更傾向於獲得觀眾好評?

#先獲取所有電影型別列表
genres_full_data=pd.Series(list_).value_counts().sort_values(ascending=False)
genres_full_data_=pd.DataFrame({"genres":genres_full_data.index
                                ,"num":genres_full_data}).sort_values(by=["genres"]).drop("")

歷史片、記錄片、戰爭片的電影型別更傾向於獲得觀眾的好評,其中,對於歷史型別的電影,從圖形上來說它的箱形較扁,說明這種系列的電影的得分較為集中,即歷史片得高分得概率較大;而記錄片電影的箱形較長,說明這種系列的電影相對於歷史片而言,得分較為分散,存在高分電影,也存在得分不怎麼高的電影,它的中位線更靠近四分之三分位線,高分部分的得分比低分部分的得分集中一些.

(5)、電影關鍵字-詞雲圖

五、主要結論

(1)在電影製作數量上,美國以88%的比例排名第一;

(2)按電影評分平均分:巴基斯坦>阿根廷>愛爾蘭;

(3)戲劇電影、喜劇電影、恐怖電影比較受制片人青睞;

(4)歷史片、記錄片、戰爭片的電影型別更傾向於獲得觀眾的好評;

(5)演員出演數量上,Samuel L.Jackson主演的電影數量超過60部,排名第一;

(6)電影製作數量上,Steven Spielberg以27部排名第一。

以上就是圍繞著關於電影資料集的若干問題展開的資料視覺化分析全過程,後面有其他的分析方向,再補充吧。