【專案實戰】：Python ：視訊網站資料清洗整理和結論研究

阿新 • • 發佈：2018-12-14

視訊網站資料清洗整理和結論研究

要求： 1、資料清洗 - 去除空值

要求：建立函式
提示：fillna方法填充缺失資料，注意inplace引數

2、資料清洗 - 時間標籤轉化

要求： ① 將時間欄位改為時間標籤 ② 建立函式
提示：需要將中文日期轉化為非中文日期，例如 2016年5月24日 → 2016.5.24

3、問題1 分析出不同導演電影的好評率，並篩選出TOP20

要求： ① 計算統計出不同導演的好評率，不要求建立函式 ② 通過多系列柱狀圖，做圖表視覺化
提示： ① 好評率 = 好評數 / 評分人數 ② 可自己設定圖表風格

4、問題2 統計分析2001-2016年每年評影人數總量

要求： ① 計算統計出2001-2016年每年評影人數總量，不要求建立函式 ② 通過面積圖，做圖表視覺化，分析每年人數總量變化規律 ③ 驗證是否有異常值（極度異常） ④ 建立函式分析出資料外限最大最小值） ⑤ 篩選檢視異常值 → 是否異常值就是每年的熱門電影？

提示： ① 通過箱型圖驗證異常值情況 ② 通過quantile(q=0.5)方法，得到四分位數 ③ IQR=Q3-Q1 ④ 外限：最大值區間Q3+3IQR,最小值區間Q1-3IQR （IQR=Q3-Q1） ⑤ 可自己設定圖表風格

一匯入python包

import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
% matplotlib inline

二資料讀取

data = pd.read_csv('C:/Users/Hjx/Desktop/愛奇藝視訊資料.csv', engine = 'python')
print(data.head())

在這裡插入圖片描述

三資料清洗

1 去除空值

文字型欄位空值改為“缺失資料”，數字型欄位空值改為 0

要求：建立函式
提示：fillna方法填充缺失資料，注意inplace引數

def data_cleaning(df):
    cols = df.columns
    for col in cols:
        if df[col].dtype ==  'object':
            df[col].fillna('缺失資料', inplace = True)
        else:
            df[col].fillna(0, inplace = True)
    return(df)

該函式可以將任意資料內空值替換

data_c1 = data_cleaning(data)
print(data_c1.head(10))

在這裡插入圖片描述

2 時間標籤轉化

將時間欄位改為時間標籤

要求：建立函式
提示：需要將中文日期轉化為非中文日期，例如 2016年5月24日 → 2016.5.24

	def data_time(df,*cols):
	    for col in cols:
	        df[col] = df[col].str.replace('年','.')
	        df[col] = df[col].str.replace('月','.')
	        df[col] = df[col].str.replace('日','')
	        df[col] = pd.to_datetime(df[col])
	    return(df)

該函式將輸入列名的列，改為DatetimeIndex格式

data_c2 = data_time(data_c1,'資料獲取日期')
print(data_c2.head(10))

在這裡插入圖片描述

四統計分析

問題1 分析出不同導演電影的好評率，並篩選出TOP20
- 要求： ① 計算統計出不同導演的好評率，不要求建立函式 ② 通過多系列柱狀圖，做圖表視覺化
- 提示： ① 好評率 = 好評數 / 評分人數

df_q1 = data_c2.groupby('導演')[['好評數','評分人數']].sum()
df_q1['好評率'] = df_q1['好評數'] / df_q1['評分人數']
result_q1 = df_q1.sort_values(['好評率'], ascending=False)[:20]

計算統計不同導演的好評率

result_q1['好評率'].plot(kind='bar',
       color = 'k',
       width = 0.8,
       alpha = 0.4,
       rot = 45,
       grid = True,
       ylim = [0.98,1],
       figsize = (12,4),
       title = '不同導演電影的好評率')

在這裡插入圖片描述

問題2 統計分析2001-2016年每年評影人數總量
- 要求： ① 計算統計出2001-2016年每年評影人數總量，不要求建立函式 ② 通過面積圖，做圖表視覺化，分析每年人數總量變化規律 ③ 驗證是否有異常值（極度異常） ④ 建立函式分析出資料外限最大最小值） ⑤ 篩選檢視異常值 → 是否異常值就是每年的熱門電影？
- 提示： ① 通過箱型圖驗證異常值情況 ② 通過quantile(q=0.5)方法，得到四分位數 ③ IQR=Q3-Q1 ④ 外限：最大值區間Q3+3IQR,最小值區間Q1-3IQR （IQR=Q3-Q1）

q2data1 = data_c2[['導演','上映年份','整理後劇名']].drop_duplicates()  
q2data1 = q2data1[q2data1['上映年份'] != 0]

篩選出不同年份的資料，去除‘上映年份’欄位缺失資料

q2data2 = data_c2.groupby('整理後劇名').sum()[['評分人數','好評數']]
#print(q2data2)

求出不同劇的評分人數、好評數總和

q2data3 = pd.merge(q2data1,q2data2,left_on='整理後劇名',right_index=True)
#print(q2data3)

合併資料，得到不同年份，不同劇的評分人數、好評數總和

q2data4 = q2data3.groupby('上映年份').sum()[['評分人數','好評數']]
print(q2data4.head())

按照電影上映年份統計，評分人數量

fig1 = plt.figure(num=1,figsize=(12,4))
q2data4['評分人數'].loc[2000:].plot.area(figsize = (10,4),
                                    grid = True,
                                    color = 'g',
                                    alpha = 0.8)
plt.xticks(range(2001,2016))
plt.title('2001-2016年每年評影人數總量統計')

建立面積圖
- 每年影評人數通過每個電影來判斷是否合理？
- 存在異常值，哪些是異常值？

fig,axes = plt.subplots(4,4,figsize=(10,16))
start = 2001
for i in range(4):
    for j in range(4):
        data = q2data3[q2data3['上映年份'] == start]
        data[['評分人數','好評數']].boxplot(whis = 3,  # IQR為3
                                            return_type='dict',ax = axes[i,j])  # 建立矩陣箱型圖
        start += 1

發現基本每年的資料中都有異常值，且為極度異常
建立函式得到外限最大最小值
檢視異常值

a = q2data3[q2data3['上映年份'] == 2001]
def data_error(df,col):
    q1 = df[col].quantile(q=0.25)  # 上四分位數
    q3 = df[col].quantile(q=0.75)  # 下四分位數
    iqr = q3 - q1   # IQR
    tmax = q3 + 3 * iqr  # 外限最大值
    tmin = q3 - 3 * iqr  # 外限最小值
    return(tmax,tmin)

建立函式，得到外限最大最小值

for i in range(2000,2016):
    datayear = q2data3[q2data3['上映年份'] == i]  # 篩選該年度的資料
    print('%i年有%i條資料' % (i,len(datayear)))  # 檢視每年的資料量
    t = data_error(datayear,'評分人數')  # 得到外限最大最小值
    #print(t)
    print(datayear[datayear['評分人數'] > t[0]])  # 檢視評分人數大於外限最大值的異常值
    print('-------\n')

檢視異常值資訊

【專案實戰】：Python ：視訊網站資料清洗整理和結論研究

視訊網站資料清洗整理和結論研究要求： 1、資料清洗 - 去除空值要求：建立函式提示：fillna方法填充缺失資料，注意inplace引數 2、資料清洗 - 時間標籤轉化要求： ① 將時間欄

【專案實戰】：python：MongoDB資料庫的操作及練習

python：MongoDB資料庫的操作及練習 import pymongo class MongodbConn(object): def __init__(self): self.CONN = pymongo.MongoClient("mongodb:/

【專案實戰】：python：寫檔案個性化設定模組Python_Xlwt練習

python：寫檔案個性化設定模組Python_Xlwt練習 # -*- coding: utf-8 -*- """ Created on Sun Aug 5 22:52:22 2018 @author: A3 """ # ================

【專案實戰】：基於python的p2p運營商資料資訊的特徵挖掘

######【風控建模】基於python的p2p運營商資料資訊的特徵挖掘 **@author: sunyaowu** **@datetime: 2018年8月** 說明：利用平臺數據和第三方資料建立基於使用者通訊資訊的反欺詐規則，判別通訊資

【專案實戰】：Excel：VBA自動化更新資料表格

VBA自動化更新資料表格 Sub 開啟() Dim myPath$, myFile$, AK As Workbook Application.ScreenUpdating = False '凍結螢幕，以

【專案實戰】使用者模組驗證碼程式

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

【專案實戰】使用者模組驗證碼程式

伴著元旦的腳步，小編的專案跟隨著冬的腳步，馬不停蹄，小夥伴們都有這樣的經驗，在註冊某個頁面的時候，或者輸入了好幾次密碼，但是都沒有輸對的時候，這個時候，需要輸入驗證碼，那時年少，覺得，註冊個網頁為什麼還要輸入驗證碼呢，不是多此一舉嘛，然後隨著學習和專案實戰的深入，逐漸認識到，驗證碼有著不可估量的作用。首先，小

【專案實戰】---使用ajax完成使用者名稱是否存在非同步校驗

package cn.itcast.shop.user.action;import java.io.IOException;import javax.servlet.http.HttpServletResponse;import org.apache.struts2.ServletActionContext;

【專案實戰】Java POI之Excel匯出經典案例一

最近專案中需要用到資料的匯出，於是乎就做幾個，其實說白了還是利用apache的poi，在專案中直接匯入poi包就可以。多的就不用說了，我直接上程式碼。 1、首先準備一些poi的jar包，如下圖： 2、在專案工程都建立一張Excel表，存放某個目錄下。圖圖如下： 3、在

【專案實戰】---需求分析+表關係分析

【專案實戰】——Java根據獎品權重計算中獎概率實現抽獎（適用於砸金蛋、大轉盤等抽獎活動）

　　雙蛋節（聖誕+元旦）剛剛過去，前幾天專案上線的砸金蛋活動也圓滿結束。　　　　現在在許多網站上都會有抽獎的活動，抽獎的演算法也是多種多樣，這裡介紹一下如何根據每種獎品的權重來抽獎，適用於

【專案實戰】從抽獎演算法感受演算法奧妙

【前言】最近因為公司年會需要，組長讓我們花幾天時間開發了個抽獎系統。雖然就是cs的一個小例子，不過自己設計演算法的過程還是蠻有意思的。下面先給大家看看，最後成品的樣子。主要實現的就是excel表的匯入匯出和抽獎功能，這篇就講一下抽獎功能的實現。目前

【TensorFlow實戰】用Python實現自編碼器

程式碼： import numpy as np import sklearn.preprocessing as prep import tensorflow as tf from tensorflow.examples.tutorials.mnist impor

【專案實戰】---SQLServer中case when的簡單用法

前言：對於SqlServer中case when 的應用在專案中進行了應用，現在做個簡單的總結。 case when 語句兩種語法： 1.簡單的case函式： CASE sex

【Android實戰】json檔案讀取並將資料寫入檔案

package com.json.ss; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.File; import java.io.FileOutputStrea

【特徵工程】2 機器學習中的資料清洗與特徵處理綜述

背景隨著美團交易規模的逐步增大，積累下來的業務資料和交易資料越來越多，這些資料是美團做為一個團購平臺最寶貴的財富。通過對這些資料的分析和挖掘，不僅能給美團業務發展方向提供決策支援，也為業務的迭代指明瞭方向。目前在美團的團購系統中大量地應用到了機器學習和資料探勘技術，例

【網路爬蟲】：Python：url基礎：urllib

文章目錄 1 簡單介紹 2 相關區別 3 例項講解（1）urllib （2）ulrlib2 （3）httplib （4）requests 4 專案實戰 1 簡單介紹

【AI實戰】快速掌握TensorFlow（三）：激勵函式

到現在我們已經瞭解了TensorFlow的特點和基本操作（見文章：快速掌握TensorFlow（一）），以及TensorFlow計算圖、會話的操作（見文章：快速掌握TensorFlow（二）），接下來我們將繼續學習掌握TensorFlow。本文主要是學習掌握TensorFlow的激勵函式

【AI實戰】訓練第一個AI模型：MNIST手寫數字識別模型

在上篇文章中，我們已經把AI的基礎環境搭建好了（見文章：Ubuntu + conda + tensorflow + GPU + pycharm搭建AI基礎環境），接下來將基於tensorflow訓練第一個AI模型：MNIST手寫數字識別模型。 MNIST是一個經典的手寫數字資料集，來自美國國家

【AI實戰】快速掌握TensorFlow（二）：計算圖、會話

在前面的文章中，我們已經完成了AI基礎環境的搭建（見文章：Ubuntu + Anaconda + TensorFlow + GPU + PyCharm搭建AI基礎環境），以及初步瞭解了TensorFlow的特點和基本操作（見文章：快速掌握TensorFlow（一）），接下來將繼續學習掌握Tenso

【專案實戰】：Python ：視訊網站資料清洗整理和結論研究

一 匯入python包

二 資料讀取

三 資料清洗

1 去除空值

2 時間標籤轉化

四 統計分析

相關推薦

一匯入python包

二資料讀取

三資料清洗

四統計分析