1. 程式人生 > 其它 >觀影大資料分析(二)

觀影大資料分析(二)

5 資料分析 5.1 why 想要探索影響票房的因素,從電影市場趨勢,觀眾喜好型別,電影導演,發行時間,評分與 關鍵詞等維度著手,給從業者提供合適的建議。 5.2 what   5.2.1 電影型別:定義一個集合,獲取所有的電影型別 注意到集合中存在多餘的元素:空的單引號,所以需要去除。
# 定義一個集合,獲取所有的電影型別

genre = set()

for i in df['genres'].str.split(','):  # 去掉字串之間的分隔符,得到單個電影型別

    genre = set().union(i, genre)  # 集合求並集

    # genre.update(i) #或者使用update方法
genre.discard('') # 去除多餘的元素 print(genre) # 將genre轉變成列表 genre_list = list(genre) # 建立資料框-電影型別 genre_df = pd.DataFrame() # 對電影型別進行one-hot編碼 for i in genre_list: # 如果包含型別 i,則編碼為1,否則編碼為0 genre_df[i] = df['genres'].str.contains(i).apply(lambda x: 1 if x else 0) # 將資料框的索引變為年份 genre_df.index
= df['release_year'] genre_df.head(5)

 

 

5.2.1.1 電影型別數量(繪製條形圖) 
# 計算得到每種型別的電影總數目,並降序排列

grnre_sum = genre_df.sum().sort_values(ascending = False)

# 視覺化

 

colors = ['tomato','C0']

plt.rcParams['font.sans-serif'] = ['SimHei']  #用來顯示中文

grnre_sum.plot(kind='bar',label='genres',color=colors,figsize=(12,9))

plt.title(
'不同型別的電影數量總計',fontsize=20) plt.xticks(rotation=60) plt.xlabel('電影型別',fontsize=16) plt.ylabel('數量',fontsize=16) plt.grid(False) plt.savefig("不同電影型別數量-條形圖.png",dpi=300) #在 plt.show() 之前呼叫 plt.savefig() plt.show()

 

 

 

5.2.1.2 電影型別佔比(繪製餅圖)
gen_shares = grnre_sum / grnre_sum.sum()

# 設定other類,當電影型別所佔比例小於%1時,全部歸到other類中

others = 0.01

gen_pie = gen_shares[gen_shares >= others]

gen_pie['others'] = gen_shares[gen_shares < others].sum()

colors = ['tomato', 'lightskyblue', 'goldenrod', 'wheat', 'y', 'tomato', 'lightskyblue', 'goldenrod', 'wheat', 'y',
          'tomato', 'lightskyblue', 'goldenrod', 'wheat', 'y', 'tomato', 'lightskyblue', 'goldenrod', 'wheat', 'y',
          'lightskyblue']

# 設定分裂屬性

# 所佔比例小於或等於%2時,增大每塊餅片邊緣偏離半徑的百分比

explode = (gen_pie <= 0.02) / 10

# 繪製餅圖

gen_pie.plot(kind='pie', label='', colors=colors, explode=explode, startangle=0,

             shadow=False, autopct='%3.1f%%', figsize=(8, 8))

plt.title('不同電影型別所佔百分比', fontsize=20)

plt.savefig("不同電影型別所佔百分比-餅圖.png", dpi=300)

plt.show()

 

 

 

5.2.1.3 電影型別變化趨勢(繪製折線圖)
#電影型別隨時間變化的趨勢

gen_year_sum = genre_df.sort_index(ascending = False).groupby('release_year').sum()

gen_year_sum_sub = gen_year_sum[['Action','Adventure','Crime','Romance','Science Fiction','Drama','Comedy','Thriller']]

gen_year_sum_sub.plot(figsize=(12,9))

plt.legend(gen_year_sum_sub.columns)

plt.xticks(range(1915,2018,10))

plt.xlabel('年份', fontsize=16)

plt.ylabel('數量', fontsize=16)

plt.title('不同電影變化趨勢', fontsize=20)

 

plt.grid(False)

plt.savefig("不同電影型別數量-折線圖2.png",dpi=600)

plt.show()

 

 

5.2.1.4 不同電影型別預算/利潤(繪製組合圖)
# 計算不同電影型別的利潤

# Step1-建立profit_dataframe

df['profit'] = df['revenue']-df['budget']

profit_df = pd.DataFrame()

profit_df = pd.concat([genre_df.reset_index(), df['profit']], axis=1)

df.info()

# Step2-建立profit_series,橫座標為genre

profit_s=pd.Series(index=genre_list)

# Step3-求出每種genre對應的利潤均值

for i in genre_list:

    profit_s.loc[i]=profit_df.loc[:,[i,'profit']].groupby(i, as_index=False).mean().loc[1,'profit']

profit_s = profit_s.sort_values(ascending = True)

profit_s

 

# 計算不同型別電影的budget

# Step1-建立profit_dataframe

budget_df = pd.DataFrame()

budget_df = pd.concat([genre_df.reset_index(), df['budget']], axis=1)

# Step2-建立budget_series,橫座標為genre

budget_s=pd.Series(index=genre_list)

# Step3-求出每種genre對應的預算均值

for j in genre_list:

    budget_s.loc[j]=budget_df.loc[:,[j,'budget']].groupby(j, as_index=False).mean().loc[1,'budget']

budget_s

 

# 再接著,橫向合併 profit_s 和 budget_s

profit_budget = pd.concat([profit_s, budget_s], axis=1)

profit_budget.columns = ['profit', 'budget']

 

#新增利潤率列

profit_budget['rate'] = (profit_budget['profit']/profit_budget['budget'])*100

# 降序排序

profit_budget_sort=profit_budget.sort_values(by='budget',ascending = False)

profit_budget_sort.head(2)

 

# 繪製不同型別電影平均預算和利潤率(組合圖)

x = profit_budget_sort.index

y1 = profit_budget_sort.budget

y2 = profit_budget_sort.rate

# 返回profit_budget的行數

length = profit_budget_sort.shape[0]

 

fig = plt.figure(figsize=(12,9))

# 左軸

ax1 = fig.add_subplot(1,1,1)

plt.bar(range(0,length),y1,color='C4',label='平均預算')

plt.xticks(range(0,length),x,rotation=90, fontsize=12)  # 更改橫座標軸名稱

ax1.set_xlabel('年份')                   # 設定x軸label ,y軸label

ax1.set_ylabel('平均預算',fontsize=16)

ax1.legend(loc=2,fontsize=12)

 

#右軸

# 共享x軸,生成次座標軸

ax2 = ax1.twinx()

ax2.plot(range(0,length),y2,'ro-.')

ax2.set_ylabel('平均利潤率',fontsize=16)

ax2.legend(loc=1,fontsize=12)

 

# 將利潤率座標軸以百分比格式顯示

import matplotlib.ticker as mtick

fmt='%.1f%%'

yticks = mtick.FormatStrFormatter(fmt)

ax2.yaxis.set_major_formatter(yticks)

 

# 設定圖片title

ax1.set_title('不同型別電影平均預算和利潤率',fontsize=20)

ax1.grid(False)

ax2.grid(False)

plt.savefig("不同電影平均預算+利潤率.png",dpi=300)

plt.show()

 

 

5.2.2 電影關鍵詞(keywords 關鍵詞分析,繪製詞雲圖)
from wordcloud import STOPWORDS

from wordcloud import WordCloud

keywords_list = []

for i in df['keywords']:

    keywords_list.append(i)

    keywords_list

#把字串列表連線成一個長字串

lis = ''.join(keywords_list)

lis.replace('\'s','')

#設定停用詞

stopwords = set(STOPWORDS)

stopwords.add('film')

wordcloud = WordCloud(

                background_color = 'black',

                random_state=3,

                stopwords = stopwords,

                max_words = 3000,

                scale=1).generate(lis)

plt.figure(figsize=(10,6))

plt.imshow(wordcloud)

plt.axis('off')

plt.savefig('詞雲圖.png',dpi=300)

plt.show()

 

 

5.3 when 檢視 runtime 的型別,發現是 object 型別,也就是字串,所以,先進行資料轉化。 5.3.1 電影時長(繪製電影時長直方圖)
df.runtime.head(5)

df.runtime = df.runtime.apply(pd.to_numeric, errors='coerce')

df.runtime.describe()

import seaborn as sns

sns.set_style('dark')

sns.distplot(df.runtime, bins=30)

sns.despine(left=True)  # 使用despine()方法來移除座標軸,預設移除頂部和右側座標軸

plt.xticks(range(50, 360, 20))

plt.savefig('電影時長直方圖.png', dpi=300)

plt.show()

 

 

 

 

  5.3.2 發行時間(繪製每月電影數量和單片平均票房)8 5.4 where 本資料集收集的是美國地區的電影資料,對於電影的製作公司以及製作國家,在本次的故事 背景下不作分析。 5.5 who 5.5.1 分析票房分佈及票房 Top10 的導演  
fig = plt.figure(figsize=(12,7))

x = list(range(1,13))

y1 = df.groupby('release_month').revenue.size()

y2 = df.groupby('release_month').revenue.mean()# 每月單片平均票房

 

# 左軸

ax1 = fig.add_subplot(1,1,1)

plt.bar(x,y1,color='C6',label='電影數量')

plt.grid(False)

ax1.set_xlabel('月份')                   # 設定x軸label ,y軸label

ax1.set_ylabel('電影數量',fontsize=16)

ax1.legend(loc=2,fontsize=12)

 

# 右軸

ax2 = ax1.twinx()

plt.plot(x,y2,'bo--',label='每月單片平均票房')

ax2.set_ylabel('每月單片平均票房',fontsize=16)

ax2.legend(loc=1,fontsize=12)

 

plt.savefig('每月電影數量和單片平均票房.png',dpi=300)

plt.show()

 

 參考文件:MathorCup 高校數學建模挑戰賽——觀影大資料 - 把糖還給我 - 部落格園 (cnblogs.com)