《數據挖掘導論筆記》(三)
探索數據
數據探索有助於選擇合適的數據預處理和數據分析技術。它甚至可以處理一些通常由數據挖掘解決的問題,例如,有時可以通過對數據進行直觀檢查來發現模式。此外數據探索中使用的某些技術(如可視化)可以用於理解和解釋數據挖掘結果。
本章包括三個主題:匯總統計、可視化和聯機分析處理(OLAP).
匯總統計(如值集合的均值和標準差)和可視化技術(如直方圖和散布圖)是廣泛用於數據探索的標準方法。OLAP是一種新近開發的包含一系列考察多維數組數據的技術。OLAP的分析功能集中在從多維數據數組中創建匯總表的各種方法。
本章涵蓋的主題與探測性數據分析(EDA)有許多重疊。像EDA一樣,本章特別強調可視化,而與EDA不同的是,本章並不包含諸如聚類分析和異常檢測等主題。
匯總統計
匯總統計是量化的(如均值和標準差),用單個數或數的小集合捕獲可能很大的值集的各種特征。
頻率和眾數
值v的頻率定義為 frequency(v)=具有屬性值v的對象數/m
分類屬性的眾數是具有最高頻率的值。
百分位數
對於有序數據,考慮值集的百分位數更有意義。具體的說,給定一個有序的或連續的屬性x和0與100之間的數p,第p個百分位數xp是一個x值,使得x的p%的觀測值小於xp
位置度量:均值和中位數
對於連續數據,兩個使用最廣發的匯總統計是均值和中位值,他們是值集位置的度量
盡管有時將均值解釋為值集的中間,但是僅當值以對稱方式分布時,才是對的。如果值的分布是傾斜的,則中位數是中間的一個更好的指示符。此外,均值對於離群值很敏感;對於包含離群值的數據,中位數可以再次更穩健地提供值集中間的估計。
為了克服傳統均值定義的問題,有時使用截斷均值概念。指定0和100之間的百分位數p,丟棄高端和低端(p/2)%的數據,然後用常規的方法計算均值,所得的結果即是截斷均值。中位數是p=100%時的截斷均值,而標準均值是對應於p=0%的截斷均值。
散布度量:極差和方差
最簡單的散布度量是極差。給定屬性x,它具有m個值{x1,…xm}
極差range(X)=max(x)-min(x)=xm-x1
方差variance(x)=
均值可能被離群值扭曲,並且由於方差用均值計算,因此它也對離群值敏感。
絕對平均偏差:AAD
中位數絕對偏差:MAD
四分位數極差:IQR
多元匯總統計
協方差矩陣S: sij=covariance(xi,xj
兩個屬性的協方差是兩個屬性一起變化並依賴於變量大小的度量。協方差的值接近於0表明兩個變量不具有(線性)關系,但是不能僅靠觀察協方差的值來確定兩個變量之間的關聯程度。因為兩個屬性的相關性直接指出兩個屬性(線性)相關的程度,對於數據探索,相關性比協方差更可取。相關矩陣R的第ij個元素是數據的第i個和第j個屬性之間的相關性
相關矩陣R:rij=correlation(xi,xj)=covariance(xi,xj)/sisj
si和sj分別是xi和xj的方差
可視化
數據可視化是指以圖形或表格的形式顯示信息。成功的可視化需要將數據(信息)轉換成可視形式,以便能夠借此分析或報告數據的特征和數據項或屬性之間的關系。可視化的目標是形成可視化信息的人工解釋和信息的意境模型。
一般概念
1.表示:將數據映射到圖形元素
可視化的第一步是將信息映射成可視形式,即將信息中的對象、屬性和聯系映射成可視的對象、屬性和聯系。也就是說,數據對象、它們的屬性,以及數據對象之間的聯系要轉換成諸如點、線、形狀和顏色等圖形元素。
對象通常分為三種方法表示。首先如果只考慮對象的單個分類屬性,則通常根據該屬性的值將對象聚成類,並且把這些類作為表的項或屏幕的區域顯示。其次,如果對象具有多個屬性,則可以將對象顯示為表的一行(或列),或顯示為圖的一條線。最後,對象常常解釋為二維或三維空間中的點,其中點可能用幾何圖形表示,如圓圈、十字叉或方框。
對於屬性,其表示取決於屬性的類型,即取決於屬性是標稱的、序數的還是連續的(區間的或比率的)。序數的和連續的屬性可以映射成連續的、有序的圖形特征。對於分類屬性,每個類別可以映射到不同的位置、顏色、形狀、方位、修飾物或表的列。然而,對於標稱屬性,由於它的值是無序的,因此在使用具有與其值相關的固有序的圖形特征時,就需要特別小心。換言之,用來表示序數值的圖形元素通常有序,但標稱值沒有序。
通過圖形元素表示的關系或者是顯示的,或者是隱式的。對於圖形數據,通常使用標準圖形表示——點和點間的連線。如果點(數據對象)或連線(關系)具有子集的屬性或特性,則這些屬性也可以圖示。
2.安排
對於好的可視化來說,正確選擇對象和屬性的可視化表示是基本的要求。在可視化顯示中,項的安排也至關重要。
3.選擇
可視化的另一個關鍵概念是選擇,即刪除或不突出某些對象和屬性。具體說來,盡管只具有少數維的數據對象通常可以使用直截了當的方法映射成二維或三維圖形表示。但是還沒有令人完全滿意和一般的方式表示具有許多屬性的數據。同樣,如果有很多數據對象,則可視化所有對象可能導致顯示過於擁擠。如果有許多屬性和許多對象,則情況會更加復雜。
處理很多屬性的最常用方法是使用屬性子集(通常是兩個屬性)。如果維度不太高,則可以構造雙變量(雙屬性)圖矩陣用於聯合觀察。或者說,可視化程序可以自動地顯示一系列二維圖,其中次序由用戶或根據某種預定義的策略控制,讓可視化二維圖的集族提供數據的更完全的視圖。
選擇一對(或少數)屬性的技術是一類維歸約,並且有許多更復雜的維歸約可以使用,如PCA。
當數據點的個數很多(例如超過數百個)或者數據的極差很大時,充分顯示每個對象的信息是困難的,有些數據點可能遮掩其他數據點,或者數據對象可能占據不了足夠多的像素來清楚地顯示其特征。
技術
可視化技術對於分析地數據類型通常是專用性地。
盡管可視化具有專門性和特殊性,但仍有一般性方法可對可視化技術進行分類。一種分類是基於所涉及地屬性個數(1,2,3或多),或者基於數據是否具有某種特殊地性質(如層次結構或圖結構)。可視化方法也可以根據所涉及地屬性類型分類。另一種分類是根據應用類型:科學的、統計學地或信息學地可視化。下面地討論將使用三種類型:少量屬性地可視化,具有時間和/或空間屬性地數據可視化,以及具有大量屬性的數據可視化。
1.少量屬性的可視化
有些技術(如直方圖)可以顯示單個屬性觀測值分布,其他技術(如散布圖)旨在顯示兩個屬性值之間的關系。
莖葉圖:可以用來觀測一維整型或連續數據的分布
直方圖:莖葉圖是一種類型的直方圖,該圖通過將可能的值分散到箱中,並顯示落入每個箱中的對象數,顯示屬性值的分布
相對概率直方圖:用相對概率取代計數,然而,這只是一種y軸尺度的變化,直方圖的形狀並不改變。
Pareto直方圖:它專門針對無序的分類數據,Pareto直方圖與普通直方圖一樣,只是分類按計數排序,讓計數從左到右遞減。
二維直方圖:它將每個屬性劃分成區間,而兩個區間集定義值的二維長方體。
盒裝圖:盒的下端和上端分別指示第25和第75個百分位數,而盒中的線指示第50個百分位數的值,底部和頂部的尾線分別指示第10和第90個百分位數,離群值用“+”顯示。盒狀圖相對緊湊,因此可以將許多盒裝圖放在一個圖中。還可以使用占據較少空間的盒狀圖的簡化版。
餅圖:類似於直方圖,但通常用於具有相對較少的值的分類屬性。餅圖使用圓的相對面積顯示不同值的相對頻率,而不是像直方圖那樣使用條形的面積或高度。
百分位數圖和經驗累計分布函數:累計分布函數(CDF)顯示小於該值的概率。經驗累計分布函數(ECDF)顯示小於該值點的百分比,由於點的個數是有限的,經驗累計分布函數是一個階梯函數。
散布圖:兩個主要用途:1.圖形化地顯示兩個屬性之間的關系2.當類標號給出時,可以使用散布圖考察兩個屬性將類分開的程度
2.可視化時間空間數據
數據常常有空間或時間屬性
等高線圖:對於某些三維數據,兩個屬性指定平面上的位置,而第三個屬性具有連續值。對於這樣的數據,一種有用的可視化工具是等高線圖
曲面圖:與等高線圖一樣,曲面圖使用兩個屬性表示x和y的坐標,曲面圖的第三個屬性用來指示高出前兩個屬性定義的平面的高度。盡管這種圖可能是有用的,但是這要求至少某個範圍內,對於前兩個屬性值的所有組合,第三個屬性值都有定義。
矢量場圖:在某些數據中,一個特性可能同時具有值和方向。這種類型的圖稱作矢量圖。
低維切片:考慮時間空間數據集,他記錄不同地點和時間上的某種量,如溫度或氣壓。這樣的數據有四個維,不容易用迄今為止的圖來顯示。然而,通過顯示一組圖,每月一個,可以顯示數據的各個”切片“。通過考察特定區域的逐月改變,就可能註意到所出現的變化,包括可能因為季節原因而導致的變化。
動畫:無論是否涉及時間,處理數據切片的另一種方法是使用動畫,基本思想是顯示數據的相繼二維切片
3.可視化高維據
矩陣:圖像可以看作像素的矩陣陣列,其中每個像素用它的顏色和亮度刻畫,數據矩陣是值的矩陣陣列,那麽,將數據矩陣的每個元素與圖像中的一個像素相關聯,就可以把數據矩陣看作圖像,像素的亮度和顏色由矩陣對應元素的值決定。
平行坐標系:每個屬性一個坐標軸,但是與傳統坐標系不同,平行坐標系不同的坐標軸是平行的,而不是正交的。此外,對象用線而不是用點表示,具體的說,對象每個屬性的值映射到與該屬性相關聯的坐標軸上的點,然後將這些點連接起來形成代表該對象的線。平行坐標圖的缺點之一是,在這種圖中模式的檢測可能取決於坐標軸的序。
星形坐標和Chernoff臉:顯示多維數據的另一種方法是用非文字傳達信息的符號——圖示符或圖標對對象編碼。準確的說,對象的每個屬性映射到圖示符的一個特征,使得屬性的值決定特征的準確性質。這樣,只需要掃一眼我們就可以辨別兩個對象的差異。星形坐標和Chernoff臉就是其中的兩種方法。
OLAP和多維數據分析
《數據挖掘導論筆記》(三)