1. 程式人生 > >R_Studio(決策樹演算法)鳶尾花卉資料集Iris是一類多重變數分析的資料集

R_Studio(決策樹演算法)鳶尾花卉資料集Iris是一類多重變數分析的資料集

 

 

   鳶尾花卉資料集Iris是一類多重變數分析的資料集。通過花萼長度,花萼寬度,花瓣長度,花瓣寬度4個屬性預測鳶尾花卉屬於(Setosa,Versicolour,Virginica)三個種類中的哪一類

 

  針對iris資料集實踐決策樹演算法(C4.5、C5.0),並用交叉矩陣評估模型

  iris資料RStudio系統自帶

 

  

 

  

Gary<-iris
#建立決策樹模型,來預測鳶尾花的種類
#重新命名變數名,將預測鳶尾花卉轉換為class 通過前四個變數預測class屬於哪一個類
Gary.names<-c('sepal length','sepal width','petal length','petal width', 'class') names(Gary)<-Gary.names #檢視維度 150條資料 5維變數 dim(Gary) #str()檢視資料框中每個變數的屬性 str(Gary) #summary()提供最小值、最大值、四分位數和數值型變數的均值,以及因子向量和邏輯型向量的頻數統計 summary(Gary) #設定生成隨機數的種子,種子是為了讓結果具有重複性 set.seed(1) #將資料集拆分為訓練集和測試集,拆分比例為0.75 index<-sample(nrow(Gary),0.75*nrow(Gary),replace = F) train
<-Gary[index,] test<-Gary[-index,] library(C50) #訓練資料用於建立決策樹模型 #測試集用於模型評估 mod<-C5.0(train[,-5],train[,5]) summary(mod) #預測模型 pre1<-predict(mod,newdata=test,type='class') tab<-table(pre1,test$class) tab sum(diag(tab))/sum(tab)
Gary.Script

 

 

 

 

 

實現過程