《資料探勘導論》讀書筆記(三)—— 探索資料
書名:資料探勘導論(Introduction to Data Mining)
作者: Pang-Ning Tan / Michael Steinbach / Vipin Kumar
出版社: 人民郵電出版社
譯者: 範明 / 範巨集建
出版年: 2010-12-10
ISBN: 9787115241009
第3章 探索資料
鳶尾花資料集
- 資料介紹
包含150種鳶尾花資訊,每50種取自三個鳶尾花品種之一:Setosa、Versicolour、Virginica。
花的特徵有以下五種:- 萼片長度(釐米)
- 萼片寬度(釐米)
- 花瓣長度(釐米)
- 花瓣寬度(釐米)
- 類(Setosa、Versicolour、Virginica)
- 萼片長度(釐米)
彙總統計
彙總統計(summary statistics)是量化的(如均值和標準差),用單個數或數的小集合表示可能很大的值集的各種特徵。
頻率和眾數
考慮m個物件,這m個物件具有屬性x,x的取值集合為{v1,...,vi,...,vk}。
則vi對應的頻率: frequency(vi) = 具有屬性vi的物件數/m
分類屬性的眾數(mode)是具有最高頻率的值。
百分位數
對於有序資料,考慮值集的百分位數(percentile)更有意義。具體來說,給定一個有序的或連續的屬性x和0與100之間的數p,屬性x的第p個百分位數xp是一個x值,使得x的p%的觀測值小於xp。
位置度量:均值和中位數
對於連續資料,兩個使用最廣泛的彙總統計是均值(mean)和中位數(median),它們是值集位置的度量。
考慮m個物件,這m個物件具有屬性x,x的取值集合為{v1,...,vi,...,vk},且vi <= v(i+1),則
均值:
\[ mean(x) = \bar{x} = \frac{1}{m}\sum_{i=1}^{m}v_i \tag{3-1}\]
中位數:
\[ median(x) = \left\{ \begin{matrix}v_{r+1},m=2r+1\\ \frac{1}{2}(v_r + v_{r+1}),m=2r\end{matrix} \right. \tag{3-2} \]
概括地說,如果奇數個值,則中位數是中間值;如果有偶數個值,則中位數是中間兩個值的平均值。
由於均值對離群值敏感,所以有時採用截斷均值(trimmed mean)。指定0和100之間的百分位數p,丟棄高階和低端的(p/2)%的資料,然後用常規的方法計算均值。中位數就是p=100時的截斷均值。
散佈度量:極差和方差
度量資料的集中程度。
最簡單的度量是極差(range)。給定屬性x,它具有m個值{\(x_1\),..,\(x_m\)},則極差:
\[ range(x) = max(x) - min(x) \tag{3-3} \]
更常用的度量是方差(variance)和標準差(standard deviation)。方差記作\(s_x^{2}\),標準差是方差的平方根,記作\(s_x\)。標準差和x具有相同的單位。
\[ s_x^{2} = \frac{1}{m-1}\sum_{i=1}^m(x_i - \bar{x})^{2} \tag{3-4} \]
注意,式(3-4)表示的是樣本方差,注意與總體方差進行區別。
由於方差對離群值敏感,所以有時會用到以下三種度量。
絕對平均偏差(absolute average deviation, AAD):
\[ AAD(x) = \frac{1}{m}\sum_{i=1}^m|x_i - \bar{x}| \tag{3-5} \]
中位數絕對偏差(median absolute deviation, MAD):
\[ MAD(x) = median(\{|x_1 - \bar{x}|,...,|x_m - \bar{x}|\}) \tag{3-6} \]
四分位數極差(interquartile range, IQR):
\[ IQR(x) = x_{75\%} - x_{25\%} \tag{3-7} \]
多元彙總統計
包含多個屬性的資料的位置度量,可以通過分別計算每個屬性的均值或中位數得到。
對於每個屬性的散佈情況,更多的使用協方差矩陣(covariance matrix)S表示,其中,S的第ij個元素\(s_{ij}\)是資料的第i個和第j個屬性的協方差。這樣,如果\(x_i\)和\(x_j\)分別是第i個和第j個屬性,則:
\[ s_{ij} = covariance(x_i, x_j) \tag{3-8} \]
而其中,
\[ covariance(x_i, x_j) = \frac{1}{m-1}\sum_{k=1}^m(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j}) \tag{3-9} \]
其中,\(x_{ki}\)和\(x_{kj}\)分別是第k個物件的第i和第j個屬性的值。
協方差的值接近於0,表明兩個變數不具有(線性)關係。
資料的相關性,可以用相關矩陣(correlation matrix)來度量。相關矩陣的第ij個元素是資料的第i和第j個屬性之間的相關性。如果\(x_i\)和\(x_j\)分別是第i個和第j個屬性,則:
\[ r_{ij} = correlation(x_i, x_j) = \frac{covariance(x_i, x_j)}{s_is_j} \tag{3-10} \]
其中\(s_i\)和\(s_j\)分別是\(x_i\)和\(x_j\)的方差。
視覺化
動機
- 讓人們能夠快速吸取大量視覺化資訊,並發現其中的模式。
- 利用“鎖在人腦袋中”的領域知識,用非視覺化的方式分析,用視覺化的方式提供結果,由領域專家進行評估。
一般概念
- 表示:將資料對映到圖形元素
將資料物件、屬性,資料物件之間的聯絡表示成諸如點、線、形狀、顏色等圖形元素。
- 安排
正確合理地安排各項元素。
- 選擇
刪除或不突出某些物件和屬性。
技術
少量屬性的視覺化
- 莖葉圖(stem and leaf plot)
- 直方圖(histogram)
- 條形圖(bar plot)
- 相對頻率直方圖(relative frequency histogram)
- Pareto直方圖(Pareto histogram)
- 二維直方圖(two-dimensional histogram)
- 盒狀圖(box plot)
餅圖(pie chart)
視覺化時間空間資料
- 等高線圖(contour plot)
- 曲面圖(surface plot)
- 向量圖(vector plot)
- 低維切片
動畫
視覺化高維資料
- 矩陣
- 平行座標系(parallel coordinates)
- 星形座標(star coordinates)
Chernoff臉(Chernoff face)
注意事項
ACCENT原則:
- 理解(Apprehension)
正確察覺變數之間的關係。圖形能夠最大化對變數之間關係的理解嗎?
- 清晰性(Clarity)
以目視識別圖形中所有元素。重要的元素或關係在視覺上最突出嗎?
- 一致性(Consistency)
根據以前的圖形的相似性解釋圖形。元素、符號形狀、顏色等與以前的圖形使用的一致嗎?
- 有效性(Efficiency)
用盡可能簡單的方法描繪複雜關係。圖形元素的使用經濟嗎?圖形容易解釋嗎?
- 必要性(Necessity)
對圖形和圖形元素的需要。與其他替代方法(表、文字)相比,圖形是提供資料的更有用形式嗎?為了表示關係,所有的圖形元素都是必要的嗎?
- 真實性(Truthfulness)
通過圖形元素的大小,確定圖形元素所代表的的真實值。圖形元素可以準確地定位和定標嗎?