1. 程式人生 > >離散資料分佈情況的顯示 箱型圖

離散資料分佈情況的顯示 箱型圖

最近看資料時總是會看到箱形圖, 上大學時候曾經學過這個東西,不過這麼多年也都忘記差不多了,正好借這機會再次學習學習。

 

 

 

箱型圖:

主要包含六個資料節點,將一組資料從大到小排列,分別計算出他的上邊緣,上四分位數Q3中位數,下四分位數Q1,下邊緣,還有一個異常值

 

異常值被定義為小於Q1-1.5IQR或大於Q3+1.5IQR的值。

Q1-1.5QR  <=  正常數值  <=  Q3+1.5QR

QR = Q3-Q1

 

 

 

 

 

以下內容引自:

http://www.blogjava.net/norvid/articles/317235.html

 

  • IQR = Q3-Q1,即上四分位數與下四分位數之間的差,也就是盒子的長度。
  • 最小觀測值為min = Q1 - 1.5*IQR,如果存在離群點小於最小觀測值,則鬍鬚下限為最小觀測值,離群點單獨以點匯出。如果沒有比最小觀測值小的數,則鬍鬚下限為最小值。
  • 最大觀測值為max = Q3 -1.5*IQR,如果存在離群點大於最大觀測值,則鬍鬚上限為最大觀測值,離群點單獨以點匯出。如果沒有比最大觀測值大的數,則鬍鬚上限為最大值。
通過盒圖,在分析資料的時候,盒圖能夠有效地幫助我們識別資料的特徵:
  1. 直觀地識別資料集中的異常值(檢視離群點)。
  2. 判斷資料集的資料離散程度和偏向(觀察盒子的長度,上下隔間的形狀,以及鬍鬚的長度)。