資料分析裡面的一些常用指標的特點(最大、最小、平均、中位數、....)
阿新 • • 發佈:2019-02-09
處理空值的技巧
空值處理的第一種思路是“用最接近的資料來替換它”。這並不是意味著拿它相鄰的單元格來替換,而是你需要尋找除了空的這個單元格,哪一行資料在其他列上的內容與存在空值的這行資料是最接近的,然後用該行的資料進行替換。這種方式較為嚴謹,但也比較費事。
第二種思路是針對數值型的資料,若出現空值,我們可以用該列數值型資料的平均值進行替換。如果條件允許,我建議採用眾數進行替換,即該列資料當中出現次數最多的那個數字。若不能尋找出眾數,就用中位數。算術平均數是最不理想的一種選擇。
異常值與異常欄位的處理
拿到資料集,資料來源檢查通過且空值做了預處理後,對資料集啟動“篩選”功能,點開每列的篩選項看一看,往往你就能發現那些異常資料,比如數值特別誇張,文字特別長,NULL值,不匹配的資料型別等等
要認知一個數據序列的分佈如何,首先我們要計算最大值、最小值、中位數、算術平均數、75%分位數和25%分位數。
描述統計分析”的過程,就是讓你快速地從一堆資料中抽象出資訊的過程
當需要描述某個群體的資訊時,由群裡內的多個個體所歸納而出的資訊,其合理性要高於群體中單個個體的資訊。
顧名思義,中位數就是指排在中間位置的那個數字。做中位數計算時,我們要先把需要計算平均數的所有數值排序,然後取出排序處在中間的那個數字,作為這個資料序列的平均數。若資料有偶數個,比如10個,我們找不到排序在中間的數字,那麼就取排在中間兩位的數字,比如第5和第6的兩個數字,計算這兩個數字的算術平均數,來形成中位數。
中位數能夠避免資料的平均數受到異常值的影響。
舉個最簡單的例子,有5個人,他們的月收入分別是(6K,6K,8K,10K,100K),100K這個人的數字其實是統計錯了,多加了一個0。如果計算算術平均數,受統計錯誤的影響,那這5個人的月均收入高達26K,這5個人的群體可以定義為高階白領群。
實際上,有4個人離這個數字非常遠,他們都是屌絲。如果我們採用中位數計算,那麼這個群體的月均收入是8K,就避免了100K這個特殊值帶來的影響,使得資料更為準確。
眾數
眾數,聽著這個名字其實你也能想到含義了。它是指將序列中出現次數最多的數字,作為該序列的平均數。眾數的應用頻率不是很高,但並不代表它不重要。在許多情況下,當你覺得山窮水盡時,往往眾數的計算方式能給你以幫助。
眾數用在數值型的資料中時,對數字的精度會有一定的降低,畢竟你是要找出出現頻率最高的數。如果序列中的數值精度都很高,那你未必找得到眾數。但眾數真正的價值,我覺得並不是用在數值型的資料中,而是用在類別型的資料中。
般來說,我們都會先觀察資料的平均水平,在平均水平的資訊提取完後,才會關注資料的穩定性。對於資料的穩定性,
建議大家一定要和“風險”兩個詞聯絡起來。以我膚淺的知識積累,我認為任何風險衡量的模型,其本質都離不開衡量波動性,即方差與標準差。
一個數據的波動性越大,說明它所涵蓋的資訊量越大,資訊量越大,不可知的因素就一定會更多,因此風險會更大。
將最大值減去最小值所算得的數字稱為“全距”。全距部分反映了資料點的分散情況。為什麼說是部分反映呢?若一個數據序列的最大值特別大,最小值特別小,而其他數值卻非常接近,那麼全距就不能真實反映這個資料序列的離散情況了。那麼這個時候需要百分位數衡量。
所謂的百分位數,即將資料升序排列後,具體資料值的序號除以資料值的總數,所得出的百分比,即該資料值所對應的百分位數。比如,有一個數據序列(1,2,2,3,4,4,5,6,8,10),按升序排列後,數字6排在這個序列的第8位,那麼這個資料序列的80%分位數就是6。
我們最為常用的是25%分位數和75%分位數,稱為四分衛數。而兩個四分位數的差(四分衛差),與全距一起使用,就能比較準確的判斷資料序列的離散情況。中位數即50%分位數。你可以用PERCENTILE()函式計算百分位數
資料序列的離散度與波動性是存在關係的,往往序列的離散度高,標準差也會更大。另外,檢視算術平均數與中位數的差距,也具有現實意義。若一個數據序列,資料點均勻的分佈在最大值到最小值之間,那麼算術平均數會幾乎等於中位數;
頻率分佈圖的應用其實非常廣泛,最為典型的一種應用是確定某種閥值。在閥值的確定這種分析場景中,我們經常會用到一種稱為“肘”的方法。使用該方法的前提是在頻率分佈圖中畫出累加頻率曲線。
什麼是累加頻率曲線呢?如下圖,累加頻率曲線就是從左到右,將每個箱裡面的數值個數累加,累加值除以資料序列的總數字個數,得出的百分比。
以上的總結來自以下的連結
系列經驗分享 :快速認知資料的詳細步驟(1):http://mp.weixin.qq.com/s?__biz=MjM5MjAxMDM4MA==&mid=2651886293&idx=2&sn=4866f065ab0d069cdc3b8fb21893fc00&chksm=bd48eb368a3f6220c98b3ca6e6d54ffcf3eddc98256ae790b264d8f0b5942ad62481109ab629&scene=21#wechat_redirect
系列經驗分享 :快速認知資料的詳細步驟(2):http://mp.weixin.qq.com/s?__biz=MjM5MjAxMDM4MA==&mid=2651886299&idx=2&sn=98c1b5762e9dd57ebf7f103555ccb197&chksm=bd48eb388a3f622e442ccbe050a03bdc46599ecdad0cfe342c24ca0fd3bd1f2795c093f7cdb5&scene=21#wechat_redirect
系列經驗分享 :快速認知資料的詳細步驟(3):http://mp.weixin.qq.com/s?__biz=MjM5MjAxMDM4MA==&mid=2651886301&idx=2&sn=8229987a58f1c282dbc187626c23c3ae&chksm=bd48eb3e8a3f622815f018e91cd19f6f83c9fd40d68748a4dc2e8522caa65fda3d110e5add36&scene=21#wechat_redirect
系列經驗分享 :快速認知資料的詳細步驟(5)資料透視(結合python):http://mp.weixin.qq.com/s?__biz=MjM5MjAxMDM4MA==&mid=2651886314&idx=3&sn=ac62e286ddd62aa2686b2cae44932584&chksm=bd48eb098a3f621f73940f586a8ae4508f833270d7c23ced883829bd0b7970ae429752d3316d&mpshare=1&scene=23&srcid=0105KO5LpJs9RvlxslPvsCnY#rd
另附資源:
箱線圖的畫法(有道簡報):http://www.officedoyen.com/a/exceltubiao/zuhetubiao/xianzhutu/2015/0809/11149.html
頻率直方圖的畫法(有道簡報):http://blog.csdn.net/zhanghongju/article/details/18445591
累計頻率圖:https://www.zhihu.com/question/26034022/answer/31888935
空值處理的第一種思路是“用最接近的資料來替換它”。這並不是意味著拿它相鄰的單元格來替換,而是你需要尋找除了空的這個單元格,哪一行資料在其他列上的內容與存在空值的這行資料是最接近的,然後用該行的資料進行替換。這種方式較為嚴謹,但也比較費事。
第二種思路是針對數值型的資料,若出現空值,我們可以用該列數值型資料的平均值進行替換。如果條件允許,我建議採用眾數進行替換,即該列資料當中出現次數最多的那個數字。若不能尋找出眾數,就用中位數。算術平均數是最不理想的一種選擇。
異常值與異常欄位的處理
拿到資料集,資料來源檢查通過且空值做了預處理後,對資料集啟動“篩選”功能,點開每列的篩選項看一看,往往你就能發現那些異常資料,比如數值特別誇張,文字特別長,NULL值,不匹配的資料型別等等
要認知一個數據序列的分佈如何,首先我們要計算最大值、最小值、中位數、算術平均數、75%分位數和25%分位數。
描述統計分析”的過程,就是讓你快速地從一堆資料中抽象出資訊的過程
當需要描述某個群體的資訊時,由群裡內的多個個體所歸納而出的資訊,其合理性要高於群體中單個個體的資訊。
平均數
反映資料大小的一般水平
中位數顧名思義,中位數就是指排在中間位置的那個數字。做中位數計算時,我們要先把需要計算平均數的所有數值排序,然後取出排序處在中間的那個數字,作為這個資料序列的平均數。若資料有偶數個,比如10個,我們找不到排序在中間的數字,那麼就取排在中間兩位的數字,比如第5和第6的兩個數字,計算這兩個數字的算術平均數,來形成中位數。
中位數能夠避免資料的平均數受到異常值的影響。
舉個最簡單的例子,有5個人,他們的月收入分別是(6K,6K,8K,10K,100K),100K這個人的數字其實是統計錯了,多加了一個0。如果計算算術平均數,受統計錯誤的影響,那這5個人的月均收入高達26K,這5個人的群體可以定義為高階白領群。
實際上,有4個人離這個數字非常遠,他們都是屌絲。如果我們採用中位數計算,那麼這個群體的月均收入是8K,就避免了100K這個特殊值帶來的影響,使得資料更為準確。
眾數
眾數,聽著這個名字其實你也能想到含義了。它是指將序列中出現次數最多的數字,作為該序列的平均數。眾數的應用頻率不是很高,但並不代表它不重要。在許多情況下,當你覺得山窮水盡時,往往眾數的計算方式能給你以幫助。
眾數用在數值型的資料中時,對數字的精度會有一定的降低,畢竟你是要找出出現頻率最高的數。如果序列中的數值精度都很高,那你未必找得到眾數。但眾數真正的價值,我覺得並不是用在數值型的資料中,而是用在類別型的資料中。
加權算術平均數
為了讓平均水平的計算方式能涵蓋所有的業務場景,資料集中的每個數字對於計算平均水平的重要性是不同的。
標準差數值的大小,衡量了資料序列的波動情況,即穩定性。般來說,我們都會先觀察資料的平均水平,在平均水平的資訊提取完後,才會關注資料的穩定性。對於資料的穩定性,
建議大家一定要和“風險”兩個詞聯絡起來。以我膚淺的知識積累,我認為任何風險衡量的模型,其本質都離不開衡量波動性,即方差與標準差。
一個數據的波動性越大,說明它所涵蓋的資訊量越大,資訊量越大,不可知的因素就一定會更多,因此風險會更大。
將最大值減去最小值所算得的數字稱為“全距”。全距部分反映了資料點的分散情況。為什麼說是部分反映呢?若一個數據序列的最大值特別大,最小值特別小,而其他數值卻非常接近,那麼全距就不能真實反映這個資料序列的離散情況了。那麼這個時候需要百分位數衡量。
所謂的百分位數,即將資料升序排列後,具體資料值的序號除以資料值的總數,所得出的百分比,即該資料值所對應的百分位數。比如,有一個數據序列(1,2,2,3,4,4,5,6,8,10),按升序排列後,數字6排在這個序列的第8位,那麼這個資料序列的80%分位數就是6。
我們最為常用的是25%分位數和75%分位數,稱為四分衛數。而兩個四分位數的差(四分衛差),與全距一起使用,就能比較準確的判斷資料序列的離散情況。中位數即50%分位數。你可以用PERCENTILE()函式計算百分位數
資料序列的離散度與波動性是存在關係的,往往序列的離散度高,標準差也會更大。另外,檢視算術平均數與中位數的差距,也具有現實意義。若一個數據序列,資料點均勻的分佈在最大值到最小值之間,那麼算術平均數會幾乎等於中位數;
若一個數據序列,資料點的分佈不均勻,那麼算術平均數與中位數的偏差就會比較大。往往算術平均數與中位數差距大的資料序列,我們需要格外用心地去分析。
理解相關係數的含義,相關係數衡量的是變動方向和變動的幅度,與兩個資料序列的單位無關。
-
利用相關係數來減少統計指標
在針對某項業務設計指標體系時,我們經常會羅列出很多指標。但過多的指標會給後續的報告製作、資訊解讀和產品開發帶來巨大的成本。那麼相關係數就是刪減指標的一種方式。如果發現某兩個指標間的相關係數非常高,一般大於0.8,那麼我們就兩者擇其一。 -
利用相關係數來挑選迴歸建模的變數
在建立多元迴歸模型前,我們需要解決把那些資料放入模型作為自變數。最常規的方式就是先計算所有欄位與因變數的相關係數,把相關係數較高的放入模型。然後計算自變數間的相關係數。若自變數間的相關係數高,說明存在多重共線性,需要進行刪減。
頻率分佈圖的應用其實非常廣泛,最為典型的一種應用是確定某種閥值。在閥值的確定這種分析場景中,我們經常會用到一種稱為“肘”的方法。使用該方法的前提是在頻率分佈圖中畫出累加頻率曲線。
什麼是累加頻率曲線呢?如下圖,累加頻率曲線就是從左到右,將每個箱裡面的數值個數累加,累加值除以資料序列的總數字個數,得出的百分比。
以上的總結來自以下的連結
系列經驗分享 :快速認知資料的詳細步驟(1):http://mp.weixin.qq.com/s?__biz=MjM5MjAxMDM4MA==&mid=2651886293&idx=2&sn=4866f065ab0d069cdc3b8fb21893fc00&chksm=bd48eb368a3f6220c98b3ca6e6d54ffcf3eddc98256ae790b264d8f0b5942ad62481109ab629&scene=21#wechat_redirect
系列經驗分享 :快速認知資料的詳細步驟(2):http://mp.weixin.qq.com/s?__biz=MjM5MjAxMDM4MA==&mid=2651886299&idx=2&sn=98c1b5762e9dd57ebf7f103555ccb197&chksm=bd48eb388a3f622e442ccbe050a03bdc46599ecdad0cfe342c24ca0fd3bd1f2795c093f7cdb5&scene=21#wechat_redirect
系列經驗分享 :快速認知資料的詳細步驟(3):http://mp.weixin.qq.com/s?__biz=MjM5MjAxMDM4MA==&mid=2651886301&idx=2&sn=8229987a58f1c282dbc187626c23c3ae&chksm=bd48eb3e8a3f622815f018e91cd19f6f83c9fd40d68748a4dc2e8522caa65fda3d110e5add36&scene=21#wechat_redirect
系列經驗分享 :快速認知資料的詳細步驟(5)資料透視(結合python):http://mp.weixin.qq.com/s?__biz=MjM5MjAxMDM4MA==&mid=2651886314&idx=3&sn=ac62e286ddd62aa2686b2cae44932584&chksm=bd48eb098a3f621f73940f586a8ae4508f833270d7c23ced883829bd0b7970ae429752d3316d&mpshare=1&scene=23&srcid=0105KO5LpJs9RvlxslPvsCnY#rd
另附資源:
箱線圖的畫法(有道簡報):http://www.officedoyen.com/a/exceltubiao/zuhetubiao/xianzhutu/2015/0809/11149.html
頻率直方圖的畫法(有道簡報):http://blog.csdn.net/zhanghongju/article/details/18445591
累計頻率圖:https://www.zhihu.com/question/26034022/answer/31888935