1. 程式人生 > >資料分析:度量資料散佈的四分位數

資料分析:度量資料散佈的四分位數

假設屬性X的資料以數值遞增序排列。分位數是取自資料分佈的每隔一定間隔上的點,把資料劃分成基本上大小相等的連貫集合。4-分位數是3個數據點,他們把資料劃分成4個相等的部分,使得每部分表示資料分佈的四分之一。通常稱它們為四分位數。四分位數給出分佈的中心、散佈和形狀的某種指示。第1個四分位數記作Q_{1},是第25個百分位數。第3個四分位數記作Q_{3},是第75個百分位數。

第1個和第3個四分位數之間的距離是散佈的一種簡單度量,它給出被資料的中間一般所覆蓋的範圍。該距離稱為四分位數極差(IQR),定義為

            IQR=Q_{3}-Q_{1}

分佈的五數概括由中位數(Q_{2})、四分位數(Q_{1},Q_{3})、最小和最大觀測值組成,按次序寫出。

盒圖對於識別離群點是有用的。盒圖是一種流行的分佈的直觀表示。盒圖體現了五數概括:

  • 盒的端點一般在四分位數上,使得盒的長度是IQR
  • 中位數用盒內的線標記。
  • 盒外的兩條線(稱作鬍鬚)延伸到最小和最大觀測值。

當處理數量適中的觀測值時,值得個別的會出可能的離群點。在盒圖中佔有做:僅當最高和最低觀測值超過四分位數不到1.5\times IQR時,鬍鬚擴充套件到它們。否則,鬍鬚出現在四分位數的1.5\times IQR之內的最極端的觀測值處終止,剩下的情況個別的繪出。盒圖可以用來比較若干個可比較的資料集。

參考文獻:《資料探勘概念與技術 》Jiawei Han, Micheline Kamber, Jian Pei