描述統計學基礎
阿新 • • 發佈:2018-12-17
分析數值資料
數值資料的四個方面
分析數值資料有四個主要方面。
Center
集中趨勢測量Spread
離散程度測量Shape
資料的形狀Outliers
異常值
分析分類資料
分析分類資料要考慮的部分較少。分類資料的分析方法通常是檢視落入每個組的獨立個體的數量或比例。例如,如果我們在看狗的品種,我們會關心每個品種有多少隻狗,或者每個品種的狗的比例如何。
集中趨勢測量
集中趨勢測量的方式有三種:
Mean
均值Median
中位數Mode
眾數
均值
均值在數學中通常稱為平均數或預期值。我們通過將所有值相加,然後除以資料集中所有測量值的個數來計算均值。
中位數
中位數將我們的資料分為兩部分,一半低於它,一半高於它。如何計算中位數取決於我們有偶數個還是奇數個觀察值。
奇數個值的中位數
如果我們有奇數個觀察值,中位數直接是中間的那個數字。例如,如果我們有 7 個觀察值並按從小到大排列,則中位數是第四個值。如果我們有 9 個觀察值,則中位數是第五個值。
偶數個值的中位數
如果我們有偶數個觀察值,中位數是中間兩個值的平均值。例如,如果我們有 8 個觀察值並從小到大排列,則計算第四和第五個值的平均值。
要計算中位數,我們必須首先對值排序。
我們使用平均數還是中位數來描述資料集,很大程度上取決於我們資料集的形狀以及是否有任何異常值。
眾數
眾數指一組資料中出現次數最多的資料值。
一個數據集中可能有多個眾數,也可能沒有眾數。
無眾數
如果資料集中的所有值出現的頻數相同,則不存在眾數。如果我們有一組資料集:
1, 1, 2, 2, 3, 3, 4, 4
則沒有眾數,因為所有觀察值發生的次數相同。
多個眾數
如果兩個(或多個)數字出現的次數都是最多的,則有多個眾數。如果我們有一組資料集:
1, 2, 3, 3, 3, 4, 5, 6, 6, 6, 7, 8, 9
其中有兩個眾數 3 和 6,因為這兩個值都出現了三次,出現頻率最高,而其他的值都只出現了一次。