《資料探勘導論》讀書筆記（三）—— 探索資料

阿新 • • 發佈：2019-02-20

書名：資料探勘導論(Introduction to Data Mining)
作者: Pang-Ning Tan / Michael Steinbach / Vipin Kumar
出版社: 人民郵電出版社
譯者: 範明 / 範巨集建
出版年: 2010-12-10
ISBN: 9787115241009

第3章探索資料

鳶尾花資料集

資料介紹
包含150種鳶尾花資訊，每50種取自三個鳶尾花品種之一：Setosa、Versicolour、Virginica。
花的特徵有以下五種：
1. 萼片長度（釐米）
2. 萼片寬度（釐米）
3. 花瓣長度（釐米）
4. 花瓣寬度（釐米）
5. 類(Setosa、Versicolour、Virginica)

彙總統計

彙總統計(summary statistics)是量化的（如均值和標準差），用單個數或數的小集合表示可能很大的值集的各種特徵。

頻率和眾數

考慮m個物件，這m個物件具有屬性x，x的取值集合為{v1,...,vi,...,vk}。
則vi對應的頻率： frequency(vi) = 具有屬性vi的物件數/m
分類屬性的眾數(mode)是具有最高頻率的值。

百分位數

對於有序資料，考慮值集的百分位數(percentile)更有意義。具體來說，給定一個有序的或連續的屬性x和0與100之間的數p，屬性x的第p個百分位數xp是一個x值，使得x的p%的觀測值小於xp。

位置度量：均值和中位數

對於連續資料，兩個使用最廣泛的彙總統計是均值(mean)和中位數(median)，它們是值集位置的度量。
考慮m個物件，這m個物件具有屬性x，x的取值集合為{v1,...,vi,...,vk}，且vi <= v(i+1)，則
均值：
\[ mean(x) = \bar{x} = \frac{1}{m}\sum_{i=1}^{m}v_i \tag{3-1}\]

中位數：
\[ median(x) = \left\{ \begin{matrix}v_{r+1},m=2r+1\\ \frac{1}{2}(v_r + v_{r+1}),m=2r\end{matrix} \right. \tag{3-2} \]
概括地說，如果奇數個值，則中位數是中間值；如果有偶數個值，則中位數是中間兩個值的平均值。
由於均值對離群值敏感，所以有時採用截斷均值(trimmed mean)。指定0和100之間的百分位數p，丟棄高階和低端的(p/2)%的資料，然後用常規的方法計算均值。中位數就是p=100時的截斷均值。

散佈度量：極差和方差

度量資料的集中程度。
最簡單的度量是極差(range)。給定屬性x，它具有m個值{\(x_1\),..,\(x_m\)}，則極差：
\[ range(x) = max(x) - min(x) \tag{3-3} \]

更常用的度量是方差(variance)和標準差(standard deviation)。方差記作\(s_x^{2}\),標準差是方差的平方根，記作\(s_x\)。標準差和x具有相同的單位。
\[ s_x^{2} = \frac{1}{m-1}\sum_{i=1}^m(x_i - \bar{x})^{2} \tag{3-4} \]
注意，式(3-4)表示的是樣本方差，注意與總體方差進行區別。
由於方差對離群值敏感，所以有時會用到以下三種度量。
絕對平均偏差(absolute average deviation, AAD):
\[ AAD(x) = \frac{1}{m}\sum_{i=1}^m|x_i - \bar{x}| \tag{3-5} \]
中位數絕對偏差(median absolute deviation, MAD):
\[ MAD(x) = median(\{|x_1 - \bar{x}|,...,|x_m - \bar{x}|\}) \tag{3-6} \]
四分位數極差(interquartile range, IQR):
\[ IQR(x) = x_{75\%} - x_{25\%} \tag{3-7} \]

多元彙總統計

包含多個屬性的資料的位置度量，可以通過分別計算每個屬性的均值或中位數得到。
對於每個屬性的散佈情況，更多的使用協方差矩陣(covariance matrix)S表示，其中，S的第ij個元素\(s_{ij}\)是資料的第i個和第j個屬性的協方差。這樣，如果\(x_i\)和\(x_j\)分別是第i個和第j個屬性，則：
\[ s_{ij} = covariance(x_i, x_j) \tag{3-8} \]
而其中，
\[ covariance(x_i, x_j) = \frac{1}{m-1}\sum_{k=1}^m(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j}) \tag{3-9} \]
其中，\(x_{ki}\)和\(x_{kj}\)分別是第k個物件的第i和第j個屬性的值。
協方差的值接近於0，表明兩個變數不具有（線性）關係。
資料的相關性，可以用相關矩陣(correlation matrix)來度量。相關矩陣的第ij個元素是資料的第i和第j個屬性之間的相關性。如果\(x_i\)和\(x_j\)分別是第i個和第j個屬性，則：
\[ r_{ij} = correlation(x_i, x_j) = \frac{covariance(x_i, x_j)}{s_is_j} \tag{3-10} \]
其中\(s_i\)和\(s_j\)分別是\(x_i\)和\(x_j\)的方差。

視覺化

動機

讓人們能夠快速吸取大量視覺化資訊，並發現其中的模式。
利用“鎖在人腦袋中”的領域知識，用非視覺化的方式分析，用視覺化的方式提供結果，由領域專家進行評估。

一般概念

表示：將資料對映到圖形元素
將資料物件、屬性，資料物件之間的聯絡表示成諸如點、線、形狀、顏色等圖形元素。
安排
正確合理地安排各項元素。
選擇
刪除或不突出某些物件和屬性。

技術

少量屬性的視覺化

莖葉圖(stem and leaf plot)
直方圖(histogram)
條形圖(bar plot)
相對頻率直方圖(relative frequency histogram)
Pareto直方圖(Pareto histogram)
二維直方圖(two-dimensional histogram)
盒狀圖(box plot)
餅圖(pie chart)

視覺化時間空間資料
等高線圖(contour plot)
曲面圖(surface plot)
向量圖(vector plot)
低維切片
動畫

視覺化高維資料
矩陣
平行座標系(parallel coordinates)
星形座標(star coordinates)
Chernoff臉(Chernoff face)

注意事項

ACCENT原則：

理解(Apprehension)
正確察覺變數之間的關係。圖形能夠最大化對變數之間關係的理解嗎？
清晰性(Clarity)
以目視識別圖形中所有元素。重要的元素或關係在視覺上最突出嗎？
一致性(Consistency)
根據以前的圖形的相似性解釋圖形。元素、符號形狀、顏色等與以前的圖形使用的一致嗎？
有效性(Efficiency)
用盡可能簡單的方法描繪複雜關係。圖形元素的使用經濟嗎？圖形容易解釋嗎？
必要性(Necessity)
對圖形和圖形元素的需要。與其他替代方法（表、文字）相比，圖形是提供資料的更有用形式嗎？為了表示關係，所有的圖形元素都是必要的嗎？
真實性(Truthfulness)
通過圖形元素的大小，確定圖形元素所代表的的真實值。圖形元素可以準確地定位和定標嗎？

《資料探勘導論》讀書筆記（三）—— 探索資料

第3章探索資料

鳶尾花資料集

彙總統計

頻率和眾數

百分位數

位置度量：均值和中位數

散佈度量：極差和方差

多元彙總統計

視覺化

動機

一般概念

技術

少量屬性的視覺化

視覺化時間空間資料

視覺化高維資料

注意事項

《資料探勘導論》讀書筆記（三）—— 探索資料

資料探勘導論學習筆記（一）

資料探勘 | 親和性分析（三）

資料探勘入門系列教程（三）之scikit-learn框架基本使用（以K近鄰演算法為例）

資料探勘入門系列教程（六）之資料集特徵選擇

資料探勘入門系列教程（三點五）之決策樹

JavaScript中的this—你不知道的JavaScript上卷讀書筆記（三）

Maven實戰讀書筆記（三）：Maven依賴

《Python網絡數據采集》讀書筆記（三）

《編碼-隱匿在計算機背後的語言》 —— 讀書筆記（三）：數字

機器學習讀書筆記（三）決策樹基礎篇之從相親說起

《JavaScript高級程序設計》讀書筆記（三）基本概念第一小節

《JavaScript高級程序設計》讀書筆記（三）基本概念第二小節 Number類型

遊戲人工智能讀書筆記（三）遊戲和人工智能的相互影響

《圖解http》讀書筆記（三）

《好好學習》讀書筆記（三）第二章：掌握臨界知識的方法

《聯盟》讀書筆記（三）：如何協調員工與公司的目標和價值觀

《深入理解java虛擬機器》讀書筆記（三）---- 垃圾回收演算法及垃圾收集器介紹

《修煉之道:.NET開發要點精講》讀書筆記（三）

《經濟學原理》——讀書筆記（三）

《資料探勘導論》讀書筆記（三）—— 探索資料

第3章 探索資料

鳶尾花資料集

彙總統計

頻率和眾數

百分位數

位置度量：均值和中位數

散佈度量：極差和方差

多元彙總統計

視覺化

動機

一般概念

技術

少量屬性的視覺化

視覺化時間空間資料

視覺化高維資料

注意事項

相關推薦

第3章探索資料