1. 程式人生 > >nchu2020的專欄

nchu2020的專欄

轉自:http://www.cnblogs.com/liuning8023/p/3531900.html

本文內容

  • 分位數
  • 中位數
  • 四分位數
  • 百分位數
  • 參考資料
  • 演示

分位數

分位數(Quantile),也稱分位點,是指將一個隨機變數的概率分佈範圍分為幾個等份的數值點,分析其資料變數的趨勢。常用的有中位數、四分位數、百分位數等。

中位數

中位數(Medians)是一個統計學的專有名詞,代表一個樣本、種群或概率分佈中的一個數值,可以將數值集合劃分為相等的兩部分,即,若設連續隨機變數 X的分佈函式為 F(X),那麼滿足條件 F(X)=1/2 ,稱為 X 或分佈 F 的中位數。中位數是用來衡量集中趨勢的方法。對於一個有限的、有序的數集,位於中間位置的那個數值就是中位數,用 Me 表示。

中位數可以擴充套件到四分位數,即中位數再取中位數,變成四分位數。

四分位數

若設連續隨機變數 X 的分佈函式為 F(X),那麼滿足條件 F(X)=1/4 ,稱為 X 或分佈 F  的四分位數。四分位數通常用箱形圖(Box Plots)表示。箱形圖能顯示出一組資料的最大值(Maximum)、最小值(Minimum)、中位數(Q2)、下四分位數(Q1)及上四分位數(Q3)。

四分位描述為,將 n 個數從小到大排列 xn=(x1,x2,x3,…,xn),那麼 Q1,Q2,Q3 的位置 L:

clip_image002

clip_image004

clip_image006

當計算的位置為小數時,即 n 為奇數,其四分位數將在後面示例中介紹。

箱形圖

箱形圖是於 1977年由美國著名統計學家約翰·圖基(John Tukey)發明,如下所示:

clip_image007

圖 1 箱形圖

這組資料顯示出:

  • 最小值(Minimum)為 5
  • 下四分位數(Q1)為 7
  • 中位數(Q2,Median)為 8.5
  • 上四分位數(Q3)為 9
  • 最大值(Maximum)為 10
  • 平均值為 8
  • 四分位間距(Inter-quartile range,IQR)為 Q3-Q1=2,即 ΔQ,在區間 Q1-1.5ΔQ,Q3+1.5ΔQ 之外的值被視為應忽略(farout)。
    • farout:在圖上不予顯示,僅標註一個符號。
    • 最大值區間: Q3+1.5ΔQ
    • 最小值區間: Q1-1.5ΔQ
  • 最大值與最小值產生於這個區間。區間外的值被視為 outlier 顯示在圖上。
    • mild outlier 為 3.5
    • extreme outlier 為 0.5

2014-01-23_233247_副本

圖 2 正態分佈 N(0,1σ2) 的箱形圖和概率密度函式

不論 Q1,Q2,Q3 的變異量數數值為何,均視為一個分界點,以此將總數分成四個相等部分,可以通過 Q1 和 Q3 比較,分析其資料變數的趨勢。

示例 1

某車間某月份的工人生產某產品的數量分別為 x=(13, 13.5, 13.8, 13.9, 14, 14.6, 14.8, 15, 15.2, 15.4, 15.7) 公斤,則三個四分位數的位置分別為:

clip_image011

clip_image013

clip_image015

即陣列第3、第6、第9個工人的某種產品產量分別為下四分位數、中位數和上四分位數為:

Q1 = 13.8 公斤、Q2 = 14.6 公斤、Q3 = 15.2 公斤

示例 2

某車間某月份的工人生產某產品的數量分別為 x=(13, 13.5, 13.8, 13.9, 14, 14.6, 14.8, 15, 15.2, 15.4) 公斤,則三個四分位數的位置分別為:

clip_image017

clip_image019

clip_image021

即陣列中的第 2.75 項、第 5.5 項、第 8.25 項分別為下四分位數、中位數和上四分位數。即:

Q1=0.25×第2項+0.75×第3項=0.25×13.5+0.75×13.8=13.73 (公斤)

Q2=0.5×第5項+0.5×第6項=0.5×14+0.5×14.6=14.3 (公斤)

Q3=0.75×第8項+0.25×第9項=0.75×15+0.25×15.2=15.05 (公斤)

若(n+1)為 4 的倍數,則確定四分數很簡單;否則,若不是 4 的倍數,即小數,則四分位數是該小數的最大整數和最小整數位置上的值的平均數。

另外,權重的大小取決於兩個整數位置距離的遠近,距離越近,權數越大,距離越遠,權數越小,權數之和等於 1。

示例 3

若有有序陣列 x=(17, 19, 22, 24, 25, 28, 34),則四分位數:

Q1 的位置= (n + 1) / 4 = (7 + 1) / 4 = 2

Q3 的位置= 3*(n + 1) / 4 = 3*(7 + 1) / 4 = 6

則 Q與 Q分別為 19 和 28;IQR 四分位差為 Q3 − Q1=28-19=9

說明 50% 的資料集中在 19~28 之間,最大差異為 9。

百分位數

百分位數又稱百分位分數(percentile),是一種相對地位量數,它是次數分佈(Frequency Distribution,頻數分佈)中的一個點。把一個次數分佈排序後,分為 100 個單位,百分位數就是次數分佈中相對於某個特定百分點的原始分數,它表明在次數分佈中特定個案百分比低於該分數。百分位數用P加下標 m(特定百分點)表示。譬如,若P30等於60,則其表明在該次數分佈中有 30% 的個案低於 60 分。

百分位數運用在教育統計學中,如表現測驗成績時,又稱 PR 值(Percentile ranks),用於描述一組資料某一百分位置的水平,多個百分位數結合應用,可全面描述一組觀察值的分佈特徵;百分位數還可用於確定非正態分佈資料的醫學參考值範圍。但應用百分位數時,樣本含量要足夠大,否則不宜取太靠近兩端的百分位數。

計算公式為:

clip_image023

clip_image025

其中,

  • Pm:第 m 百分位數;
  • L:Pm所在組的組實下限;
  • U:Pm所在組的組實上限;
  • f:Pm所在組的次數;
  • Fb:小於 L 的累積次數;
  • Fa:大於 U 的累積次數。

示例 1

某省某年公務員考試考生分數分佈如下表所示,預定取考分居前 15% 的考生進行面試,請劃定面試分數線。

分數分組

次數

向上累積次數

向下累積次數

向上累積相對次數

95~99

7

1640

7

100%

90~94

16

1633

23

99.57%

85~89

53

1617

76

98.60%

80~84

78

1564

154

95.37%

75~79

90

1486

244

90.61%

70~74

119

l396

363

85.12%

65~69

159

1277

522

77.87%

60~64

156

1118

678

68.17%

55~59

140

962

818

58.66%

50~54

145

822

963

50.12%

45~49

140

677

1103

41.28%

40~44

135

537

1238

32.74%

35~39

130

402

1368

24.51%

30~34

126

272

1494

16.59%

25~29

78

146

1572

8.90%

20~24

25

68

1597

4.15%

15~19

20

43

1617

2.62%

10~14

16

23

1633

1.40%

5~9

7

7

1640

0.43%

由於預定取考分居前 15% 的考生進行面試,即有85%的考生分數低於劃定的分數線,由此可知,分數線在 70~74 這一組中。

clip_image027