資料分析:度量資料散佈的四分位數
阿新 • • 發佈:2019-02-01
假設屬性X的資料以數值遞增序排列。分位數是取自資料分佈的每隔一定間隔上的點,把資料劃分成基本上大小相等的連貫集合。4-分位數是3個數據點,他們把資料劃分成4個相等的部分,使得每部分表示資料分佈的四分之一。通常稱它們為四分位數。四分位數給出分佈的中心、散佈和形狀的某種指示。第1個四分位數記作,是第25個百分位數。第3個四分位數記作,是第75個百分位數。
第1個和第3個四分位數之間的距離是散佈的一種簡單度量,它給出被資料的中間一般所覆蓋的範圍。該距離稱為四分位數極差(),定義為
分佈的五數概括由中位數()、四分位數()、最小和最大觀測值組成,按次序寫出。
盒圖對於識別離群點是有用的。盒圖是一種流行的分佈的直觀表示。盒圖體現了五數概括:
- 盒的端點一般在四分位數上,使得盒的長度是。
- 中位數用盒內的線標記。
- 盒外的兩條線(稱作鬍鬚)延伸到最小和最大觀測值。
當處理數量適中的觀測值時,值得個別的會出可能的離群點。在盒圖中佔有做:僅當最高和最低觀測值超過四分位數不到時,鬍鬚擴充套件到它們。否則,鬍鬚出現在四分位數的之內的最極端的觀測值處終止,剩下的情況個別的繪出。盒圖可以用來比較若干個可比較的資料集。
參考文獻:《資料探勘概念與技術 》Jiawei Han, Micheline Kamber, Jian Pei