1. 程式人生 > >Rattle :基於R的資料探勘工具(4b):探索資料

Rattle :基於R的資料探勘工具(4b):探索資料

(3)相關性
Correlation選項。計算數值變數間的相關係數。




相關係數可以採用pearson,kendall,spearman三種方法。會輸出相關係數矩陣。

可以把結果視覺化。




這個圖當中,紅色表示負相關,藍色為正相關,顏色越淺相關係數(絕對值)越小,越接近直線,相關係數(絕對值越大)。

這個選項還可以探索缺失值的相關性。
資料集當中常有這樣的情況:一個在某個變數上有缺失值的觀測在別的變數上也很可能有缺失值。
選擇ExploreMissing並執行後,會輸出相關係數矩陣,這裡的相關性表示的是兩個變數在缺失值的數量上的聯絡。這個矩陣包括所有帶有缺失值的變數(包括屬性變數)




在計算缺失值相關性時,應把Data標籤的Partition選項關閉,來保證對完整的資料集計算。


Hierarchical選框,計算層次相關性。
輸出一個視覺化的結果:




事實上,這個圖形就是使用變數間的相關性按照層次聚類法(系統聚類法)來對變數進行分類。聚類的距離是變數間的相關性。

(4)主成分
Principal components 選框提供主成分分析來探索資料。

通常主成分分析作為一種資料降維的方法。在資料探索當中使用主成分可以用來發現資料集中用來解釋樣本變差的重要變數。樣本的各個主成分就是用來描述資料最大變差的互不相關的原始變數的線性組合。

Rattle計算主成分,有兩種方法,一種是計算樣本協方差矩陣的特徵值和特徵向量(國內的教科書常用這種方法)(Eigen)。另一種方法是對資料矩陣進行奇異值分解(SVD)。

作為結果,在SVD方法中,給出標準差,主成分系數和貢獻率,累計貢獻率。
在Eigen方法中,只給出標準差和貢獻率,累計貢獻率。兩種計算的結果是有差異的。

同時,兩種結果都會畫出碎石圖和biplot圖
下面是以weather.csv資料集為例,以SVD方法的結果:






上一個是碎石圖,用來表示各個主成分的相對重要程度,可以作為選擇主成分的一種直觀依據。
下一個是biplot圖。這個圖給出了樣本點在第一主成分和第二主成分座標系下的位置(即主成分得分),同時表示了這些樣本點在原始變數座標系中的相對位置,圖中紅色箭頭即表示原始變數座標系。原始變數以紅色標出,黑色為樣本點。

(5)互動圖
可以用latticist和GGobi兩種方法,以互動的方式探索資料。其中latticist依賴R的lattice作圖系統,而GGobi依賴同名的軟體。需要安裝GGobi軟體,以及相應的rggobi包。


我們可以利用它們做出散點圖,條形圖和平行座標圖。

除此之外,還有一個Plot Buider選框,可以製作多種型別的統計圖。這裡用了Java的技術。

具體形式,獨立成篇吧。

相關推薦

Rattle :基於R資料工具(4b):探索資料

(3)相關性Correlation選項。計算數值變數間的相關係數。 相關係數可以採用pearson,kendall,spearman三種方法。會輸出相關係數矩陣。可以把結果視覺化。 這個圖當中,紅色表示負相關,藍色為正相關,顏色越淺相關係數(絕對值)越小,越接近直線

資料工具Weka之資料格式ARFF及CSV檔案格式轉換

Weka介紹: Weka是一個用Java編寫的資料探勘工具,能夠執行在各種平臺上。它不僅提供了可以直接用於資料探勘的軟體,還提供了src程式碼,使用者可以修改原始碼,進行二次開發。但是,由於其使用了Java虛擬機器,導致其不適合處理大型資料,執行緩慢。處理超過一定大小資料,

資料工具---Spark的使用方法(二)

Spark使用過程中報錯彙總 報錯1: “ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(ap

資料工具---spark使用練習---ml(一)

Spark中ml和mllib的區別 來源: Spark中ml和mllib的主要區別和聯絡如下: ml和mllib都是Spark中的機器學習庫,目前常用的機器學習功能2個庫都能滿足需求。 spark官方推薦使用ml, 因為ml功能更全面更靈活,未來會主要支援ml

推薦:六款強大的開源資料工具

在網際網路發展到大資料時代,那麼資料就等於金錢。隨著向一個基於應用的領域過渡,資料則呈現出了指數級增長。然而,百分之八十的資料是非結構化的,因此它需要一個程式和方法來從中提取有用資訊,並且將其轉換為可理解、可用的結構化形式。 在資料探勘過程中,有大量的工具可供使用,比如採用人工智慧、機器學習,以及其他技術等

Mahout資料工具

Mahout是Hadoop系統基於MapReduce開發的資料探勘/機器學習庫,實現了大部分常用的資料探勘演算法。 Mahout提供的演算法:Classification、Clustering、Dimension Reduction、Freq. Pattern Mining

資料工具---pyspark使用方法練習

來源,官網spark2.2.1版本 pyspark不同函式的形象化解釋 SparkSession是Spark 2.0引入的新概念。SparkSession為使用者提供了統一的切入點,來讓使用者學習spark的各項功能。 在spark的早期版本中,SparkC

資料工具---sklearn使用總結

本文來源Cer_ml和Jorocco; sklearn是一個數據挖掘的python庫,github地址,該庫集成了大量的資料探勘演算法,並可以對資料做預處理,對演算法進行整合和預測結果進行驗證和評估。sklearn在資料量不是特別大的時候是很好用的;在大資料時,

Python資料工具總結

      Python語言之所以很流行,廣泛用於機器學習,資料探勘等領域,因為它有強大的第三方庫,下面我們就來做一個簡單總結。     Numpy:       提供陣列支援,向量運算,以及高效的處理函式,線性代數處理等。                         參

資料工具---spark使用練習---ml(二)

模型訓練 評估器 評估器是需要評估的統計模型,對所觀測物件做預測或分類。如果從抽象的評估器類派生,新模型必須實現.fit()方法,該方法用給出的在DataFrame中找到的資料和某些預設或自定義的引數來擬合模型。在PySpark 中,由很多評估器可用,本文以Sp

資料中基本概念--資料型別的屬性與度量

當我們在學習資料探勘演算法或者機器學習演算法時,我們都會發現某些演算法只能應用於特定的資料型別,所以在學習資料探勘演算法或者機器學習演算法前我們需要對資料型別的屬性度量有一個很清晰的瞭解,如果在資料型別這一步就出現問題,不管演算法再怎麼優異肯定也是白搭!! 2.1.1  屬性

資料實戰——交通大資料預測II

經過了近兩個月的艱苦工作,這次在阿里天池的比賽終於結束了。第一次正經的去參加資料探勘的比賽,從第一賽季開始到第二賽季結束,完整地經歷了整個流程,每天提出新想法,學習新的方法,然後用程式設計的方法去實現,看著自己的MAPE一天天的下降,那種感覺也是很棒的。覺得付出了很多,也收

泰坦尼克號資料專案實戰——Task1 資料分析

參考資料:https://www.bilibili.com/video/av27536643 https://blog.csdn.net/aaronjny/article/details/79735998 https://github.com/AaronJny/simple_titani

資料結果】大資料企業的彙總資訊

名稱 涉及領域 核心業務 投資機構 投資機構 投資機構 投資機構 金額(人民幣) 輪次 美林資料 演算法/分析

資料一般流程(資料清洗,特徵提取,建模,調參)

最近一直在實習,好長時間沒更新部落格了。哎,懶惰之心不可有啊!! 實習的崗位是資料探勘相關的,所以正好把到目前為止實習期間遇到的一些問題、學到的一些東西總結一下,並參考了一些部落格,自我提升。嘿嘿嘿~

資料概念彙總及資料預處理

資料探勘簡介 資料探勘,顧名思義,就是在大量的資料中發現有用的資訊,隨著資訊科技發展,每天都會產生大量的資料,可以說我們正處於一個大資料的時代。面對如此多的資料,傳統的分析方法不再適用,這就需要我們用新的技術工具來從資料中找到隱藏的資訊。 資料探勘的應用相當

限時領取 | 10G+AI人工智慧/複雜系統/資料/深度學習/Python資料

2017 年,AI技術匯聚了大量資本,在國務院出臺的《新一代人工智慧發展規劃》中,人工智慧核心產

資料技術在軌跡資料上的應用實踐

​![](https://img2020.cnblogs.com/other/1632886/202009/1632886-20200927195536176-2111762314.png) ![](https://img2020.cnblogs.com/other/1632886/202009/163288

基於R資料方法與實踐(3)——決策樹分析

決策樹構建的目的有兩個——探索與預測。探索方面,參與決策樹聲場的資料為訓練資料,待樹長成後即可探索資料所隱含的資訊。預測方面,可以藉助決策樹推匯出的規則預測未來資料。由於需要考慮未來資料進入該模型的分類表現,因此在基於訓練資料構建決策樹之後,可以用測試資料來衡量該模型的穩健

基於R資料方法與實踐(1)——資料準備

1、資料檢查 資料檢查是資料探勘的第1步,從不同的維度檢查資料,找出其中有問題的資料以便對其進行修正。 1.1 資料型別 檢視資料的構成與形態,尤其是各列的屬性。 > library(MASS) > data(ChickWeight) > str(Chic