豆瓣電影資料分析
目錄
概述
我通過爬蟲爬取了豆瓣電影全站,一共有7w+電影資料,當然肯定有一定的遺漏,而且爬取到的很多電影資料都是0評價、0評論,這些都要清洗掉,下面開始對這個電影資料進行分析。
更詳細的版本見豆瓣電影全站 資料分析
評分分佈情況
豆瓣電影的平均評分分佈
從圖可以看出,豆瓣電影平均評分基本符合正太分佈,6-8分左右的電影最多。
下面是具體的統計資料(這裡只統計了有效資料):
count 31920.000000
mean 6.632892
std 1.355509
min 2.000000
25% 5.900000
50% 6.800000
75% 7.600000
max 9.800000
中國大陸的豆瓣電影的平均評分分佈
從圖可以看出,中國大陸拍攝的電影在豆瓣上的平均評分明顯低於全部的電影的平均評分。
下面是具體的統計資料(這裡只統計了有效資料):
count 3681.000000 mean 5.585982 std 1.731167 min 2.000000 25% 4.200000 50% 5.700000 75% 7.000000 max 9.600000
電影年份分析
1940-2018
下面我統計了從1940-2018年的電影數量:
2000-2018
下面放大看下2000年之後的電影數量:
這裡需要注意的是2018年還沒過完,所以這裡只是到目前為止的電影總數。
電影評分和年份的關係
總有人說現在電影越拍越差,究竟這個說法有沒有依據?
1940-2018
2000-2018
看來不是錯覺,從統計結果來看,近年來電影平均評分直線下降!
電影時長分析
不同時長電影數目統計
首先先看下電影的時長分佈情況。
這裡可以看出,大部分電影時長在90分鐘左右。
電影時長和年份關係
究竟是過去愛拍超長電影,還是現代更愛拍超長電影呢?
不出所料,過去比現在更愛拍長電影。
電影型別分析
由於一本電影可能有多種型別,這裡統計的是每個型別出現的數目(一共有16w條型別資料)。
RangeIndex: 164240 entries, 0 to 164239
Data columns (total 3 columns):
genres 164240 non-null object
rating_average 164240 non-null float64
durations 164240 non-null int64
dtypes: float64(1), int64(1), object(1)
電影型別數目統計
這裡可以看出,劇情片數目遙遙領先。
電影型別和評分的關係
電影型別跟評分有沒有關係呢?
這個有點沒想到,看來電影的型別對評分還是有不小的影響的,從統計結果來看,音樂、傳記等相對小眾的電影等受眾比較少的型別評分相對比較高,而驚悚、恐怖電影評分比較相對差,大概是部分差評國產恐怖電影拉低了評分。
電影型別和時長的關係
電影型別跟時長有沒有關係呢?
仔細一看,還是挺符合情理的,歷史、傳記之類的電影確實時間比較長!
電影出品國家分析
由於一本電影可能有多個國家,這裡統計的是每個國家出現的數目(一共有9w條國家資料)。
RangeIndex: 90555 entries, 0 to 90554
Data columns (total 2 columns):
countries 90555 non-null object
rating_average 90555 non-null float64
dtypes: float64(1), object(1)
電影出品國家數目統計
美國遙遙領先,中國大陸電影在數目上也不佔優勢。
電影出品國家和評分的關係
蘇聯高居榜首,中國大陸墊底。
各項評分、評論等引數之間的相關性
下圖顯示的是兩個變數間的皮爾遜相關係數(兩個變數間協方差和標準差的商),越接近1代表正相關,越靠近-1代表越負相關,0就是代表這兩個變數間增長沒有任何關係,“rate”
表示評分(10分滿分),“stars”
表示豆瓣星級(5星為滿級),“1,2,3,4,5”
,分別代表“一星,二星,三星,四星,五星”佔比情況,“wish”
表示這部電影想看的人數,“collect”
表示這部電影看過的人數,“comments”
,“ratings”
分別代表這部電影的寫了短評的人數及評價了的人數(打了分就算評價,不用寫評論)。
短評數量和看過人數之間的關係
短評數量和看過人數呈正相關。
二星評分和四星評分佔比的相關性
二星評分和四星評分佔比呈負相關。