1. 程式人生 > >描述統計學基礎

描述統計學基礎

分析數值資料

數值資料的四個方面

分析數值資料有四個主要方面。

  1. Center 集中趨勢測量
  2. Spread 離散程度測量
  3. Shape 資料的形狀
  4. Outliers 異常值

分析分類資料

分析分類資料要考慮的部分較少。分類資料的分析方法通常是檢視落入每個組的獨立個體的數量或比例。例如,如果我們在看狗的品種,我們會關心每個品種有多少隻狗,或者每個品種的狗的比例如何。

集中趨勢測量

集中趨勢測量的方式有三種:

  1. Mean 均值
  2. Median 中位數
  3. Mode 眾數

均值

均值在數學中通常稱為平均數或預期值。我們通過將所有值相加,然後除以資料集中所有測量值的個數來計算均值。

中位數

中位數將我們的資料分為兩部分,一半低於它,一半高於它。如何計算中位數取決於我們有偶數個還是奇數個觀察值。

奇數個值的中位數

如果我們有奇數個觀察值,中位數直接是中間的那個數字。例如,如果我們有 7 個觀察值並按從小到大排列,則中位數是第四個值。如果我們有 9 個觀察值,則中位數是第五個值。

偶數個值的中位數

如果我們有數個觀察值,中位數中間兩個值的平均值。例如,如果我們有 8 個觀察值並從小到大排列,則計算第四和第五個值的平均值。

要計算中位數,我們必須首先對值排序。

我們使用平均數還是中位數來描述資料集,很大程度上取決於我們資料集的形狀以及是否有任何異常值

眾數

眾數指一組資料中出現次數最多的資料值。

一個數據集中可能有多個眾數,也可能沒有眾數。

無眾數

如果資料集中的所有值出現的頻數相同,則不存在眾數。如果我們有一組資料集:

1, 1, 2, 2, 3, 3, 4, 4

則沒有眾數,因為所有觀察值發生的次數相同。

多個眾數

如果兩個(或多個)數字出現的次數都是最多的,則有多個眾數。如果我們有一組資料集:

1, 2, 3, 3, 3, 4, 5, 6, 6, 6, 7, 8, 9

其中有兩個眾數 3 和 6,因為這兩個值都出現了三次,出現頻率最高,而其他的值都只出現了一次。