離散資料分佈情況的顯示 箱型圖
阿新 • • 發佈:2018-12-31
最近看資料時總是會看到箱形圖, 上大學時候曾經學過這個東西,不過這麼多年也都忘記差不多了,正好借這機會再次學習學習。
箱型圖:
主要包含六個資料節點,將一組資料從大到小排列,分別計算出他的上邊緣,上四分位數Q3,中位數,下四分位數Q1,下邊緣,還有一個異常值。
異常值被定義為小於Q1-1.5IQR或大於Q3+1.5IQR的值。
Q1-1.5QR <= 正常數值 <= Q3+1.5QR
QR = Q3-Q1
以下內容引自:
http://www.blogjava.net/norvid/articles/317235.html
- IQR = Q3-Q1,即上四分位數與下四分位數之間的差,也就是盒子的長度。
- 最小觀測值為min = Q1 - 1.5*IQR,如果存在離群點小於最小觀測值,則鬍鬚下限為最小觀測值,離群點單獨以點匯出。如果沒有比最小觀測值小的數,則鬍鬚下限為最小值。
- 最大觀測值為max = Q3 -1.5*IQR,如果存在離群點大於最大觀測值,則鬍鬚上限為最大觀測值,離群點單獨以點匯出。如果沒有比最大觀測值大的數,則鬍鬚上限為最大值。
- 直觀地識別資料集中的異常值(檢視離群點)。
- 判斷資料集的資料離散程度和偏向(觀察盒子的長度,上下隔間的形狀,以及鬍鬚的長度)。