Rattle :基於R的資料探勘工具(4b):探索資料

阿新 • • 發佈：2019-01-11

(3)相關性
Correlation選項。計算數值變數間的相關係數。

相關係數可以採用pearson,kendall,spearman三種方法。會輸出相關係數矩陣。

可以把結果視覺化。

這個圖當中，紅色表示負相關，藍色為正相關，顏色越淺相關係數（絕對值）越小，越接近直線，相關係數（絕對值越大）。

這個選項還可以探索缺失值的相關性。
資料集當中常有這樣的情況：一個在某個變數上有缺失值的觀測在別的變數上也很可能有缺失值。
選擇ExploreMissing並執行後，會輸出相關係數矩陣，這裡的相關性表示的是兩個變數在缺失值的數量上的聯絡。這個矩陣包括所有帶有缺失值的變數（包括屬性變數）

在計算缺失值相關性時，應把Data標籤的Partition選項關閉，來保證對完整的資料集計算。

Hierarchical選框，計算層次相關性。
輸出一個視覺化的結果：

事實上，這個圖形就是使用變數間的相關性按照層次聚類法（系統聚類法）來對變數進行分類。聚類的距離是變數間的相關性。

（4）主成分
Principal components 選框提供主成分分析來探索資料。

通常主成分分析作為一種資料降維的方法。在資料探索當中使用主成分可以用來發現資料集中用來解釋樣本變差的重要變數。樣本的各個主成分就是用來描述資料最大變差的互不相關的原始變數的線性組合。

Rattle計算主成分，有兩種方法，一種是計算樣本協方差矩陣的特徵值和特徵向量（國內的教科書常用這種方法）（Eigen）。另一種方法是對資料矩陣進行奇異值分解（SVD）。

作為結果，在SVD方法中，給出標準差，主成分系數和貢獻率，累計貢獻率。
在Eigen方法中，只給出標準差和貢獻率，累計貢獻率。兩種計算的結果是有差異的。

同時，兩種結果都會畫出碎石圖和biplot圖
下面是以weather.csv資料集為例，以SVD方法的結果：

上一個是碎石圖，用來表示各個主成分的相對重要程度，可以作為選擇主成分的一種直觀依據。
下一個是biplot圖。這個圖給出了樣本點在第一主成分和第二主成分座標系下的位置（即主成分得分），同時表示了這些樣本點在原始變數座標系中的相對位置，圖中紅色箭頭即表示原始變數座標系。原始變數以紅色標出，黑色為樣本點。

（5）互動圖
可以用latticist和GGobi兩種方法，以互動的方式探索資料。其中latticist依賴R的lattice作圖系統，而GGobi依賴同名的軟體。需要安裝GGobi軟體，以及相應的rggobi包。

我們可以利用它們做出散點圖，條形圖和平行座標圖。

除此之外，還有一個Plot Buider選框，可以製作多種型別的統計圖。這裡用了Java的技術。

具體形式，獨立成篇吧。

Rattle :基於R的資料探勘工具(4b):探索資料

Rattle :基於R的資料探勘工具(4b):探索資料

資料探勘工具Weka之資料格式ARFF及CSV檔案格式轉換

資料探勘工具---Spark的使用方法（二）

資料探勘工具---spark使用練習---ml(一)

推薦：六款強大的開源資料探勘工具

Mahout資料探勘工具包

資料探勘工具---pyspark使用方法練習

資料探勘工具---sklearn使用總結

Python資料探勘工具總結

資料探勘工具---spark使用練習---ml(二)

資料探勘中基本概念--資料型別的屬性與度量

資料探勘實戰——交通大資料預測II

泰坦尼克號資料探勘專案實戰——Task1 資料分析

【資料探勘結果】大資料企業的彙總資訊

資料探勘一般流程（資料清洗，特徵提取，建模，調參）

資料探勘概念彙總及資料預處理

限時領取 | 10G+AI人工智慧/複雜系統/資料探勘/深度學習/Python資料

資料探勘技術在軌跡資料上的應用實踐

基於R的資料探勘方法與實踐（3）——決策樹分析

基於R的資料探勘方法與實踐（1）——資料準備

Rattle :基於R的資料探勘工具(4b):探索資料

相關推薦