R_Studio(決策樹演算法)鳶尾花卉資料集Iris是一類多重變數分析的資料集
阿新 • • 發佈:2018-11-09
鳶尾花卉資料集Iris是一類多重變數分析的資料集。通過花萼長度,花萼寬度,花瓣長度,花瓣寬度4個屬性預測鳶尾花卉屬於(Setosa,Versicolour,Virginica)三個種類中的哪一類
針對iris資料集實踐決策樹演算法(C4.5、C5.0),並用交叉矩陣評估模型
iris資料RStudio系統自帶
Gary<-iris #建立決策樹模型,來預測鳶尾花的種類 #重新命名變數名,將預測鳶尾花卉轉換為class 通過前四個變數預測class屬於哪一個類Gary.ScriptGary.names<-c('sepal length','sepal width','petal length','petal width', 'class') names(Gary)<-Gary.names #檢視維度 150條資料 5維變數 dim(Gary) #str()檢視資料框中每個變數的屬性 str(Gary) #summary()提供最小值、最大值、四分位數和數值型變數的均值,以及因子向量和邏輯型向量的頻數統計 summary(Gary) #設定生成隨機數的種子,種子是為了讓結果具有重複性 set.seed(1) #將資料集拆分為訓練集和測試集,拆分比例為0.75 index<-sample(nrow(Gary),0.75*nrow(Gary),replace = F) train<-Gary[index,] test<-Gary[-index,] library(C50) #訓練資料用於建立決策樹模型 #測試集用於模型評估 mod<-C5.0(train[,-5],train[,5]) summary(mod) #預測模型 pre1<-predict(mod,newdata=test,type='class') tab<-table(pre1,test$class) tab sum(diag(tab))/sum(tab)
實現過程