1. 程式人生 > >第一篇:查閱數據

第一篇:查閱數據

如何使用 str 打印 chl sof 表示 cnblogs 命令 numeric

前言

本文講解如何使用 R 語言對數據集進行總體上的了解。

在進行數據挖掘之前,我們有必要對挖掘的數據集對象有一個總體的了解。本文采用具體實例講解的方式,詳細演示對一個數據集的分析過程。

Step 1:載入數據集

技術分享

命令data("數據集名")可載入指定數據集。

Step 2:查看行列名

技術分享

命令attributes("數據集")可打印出數據集的行/列名。本例中,bmi和chl是numeric類型,而另外兩個變量是factor類型。

Step 3:查看特征類型信息

技術分享

命令str("數據集")可以查看到特征的具體類型信息。本例中,bmi和chl是numeric類型,而另外兩個變量是factor類型。

Step 4:查看特征值的總體分布情況

技術分享

summary("數據集")可查看到特征值的總體分布情況。它會打印出各列的最大,最小,平均值,缺失值個數等信息。

需要特別說明的是 1st Qu,2 st Qu,3 st Qu 分別表示一分位點,二分位點,三分位點。一分位點表示四分之一處的數,二分位點表示中位數,三分位點表示四分之三處的數。

此外,Na‘s 是缺失值個數。

Step 5:數據可視化

這部分將在下文中詳細講解。

小結

本文只講解了數據集的總體大致流程。針對某些實際情況,也許需要掌握一些關於分布,或者稀疏度之類的信息,這時需要查閱其他數據分析API,這裏不再過細講述。

第一篇:查閱數據