隨機森林二分類建模

阿新 • • 發佈：2019-01-16

由於對r相對比較熟悉，先用的r處理資料，但是跑模型太慢，因此用py跑的模型。用了邏輯迴歸和隨機森林，顯然後者要好很多，因為維度一千多個，而且邏輯迴歸要涉及到更詳細的特徵處理,第一部分是r程式碼，第二部分是py

一 r code

rm(list=ls())

library(caret)
train_x<-read.csv("train_x.csv",header=T)#讀取x
train_y<-read.csv("train_y.csv",header=T)#讀取y
train<-merge(train_x,train_y,by.x="uid",by.y="uid")#合併x和y

rep<-train[train$y==0,]
for (i in 1:6){
rep<-rbind(rep,train[train$y==0,])
}#生成向上樣本
train_add<-rbind(train,rep)#形成新新增7次負樣本總數的樣本

train_add_1<-train_add[,1]#存放合併以及增加樣本後的uid
train_add_y<-train_add[,c(1,1140)]#存放合併以及增加樣本後的y
names(train_add_y)<-c("uid","y")

train_add_x<-train_add[,-c(1,1140)]#提取需要進行清洗的變數（去掉uid和Y值）

zerovar <- nearZeroVar(train_add_x)#找出近似常量的變數
newdata1 <- train_add_x[,-zerovar]#去掉近似常量的變數
descrCorr <- cor(newdata1)#求出相關矩陣
highCorr <- findCorrelation(descrCorr, 0.90)#找出相關性強的變數
newdata2 <- newdata1[, -highCorr]#刪除相關性強的變數
comboInfo = findLinearCombos(newdata2)#找出線性相關性強的變數
newdata2=newdata2[, -comboInfo$remove]#刪除相關性強的變數
Process <- preProcess(newdata2)#資料預處理步驟（標準化，缺失值處理）
newdata3 = predict(Process, newdata2)

train_add_haveuid<-cbind(train_add_1,newdata3)

names(train_add_haveuid)[1]<-"uid"

train1<-merge(train_add_haveuid,train_add_y,by.x="uid",by.y="uid")#合併資料
names(train1)

write.csv("清洗好的訓練資料.csv")

二 py code

# -*- coding: utf-8 -*-
"""
Created on Wed Dec 09 13:23:36 2015

@author: Tanya_girl
"""

import sklearn
import os
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
os.getcwd()
os.chdir("D:\\competitions\\datacastle\\p2p")
train1=pd.read_csv("ok_train_without2.csv")
test1=pd.read_csv("ok_test_without2.csv")

y=train1['y']
x=train1.ix[:,:619]
x1=test1.ix[:,:619]
y1=test1['y']

print x.head()

clf = RandomForestClassifier(n_jobs=8)
s=clf.fit(x, y)

clf = LogisticRegression()
s1=clf.fit(x, y)

y_rd_pred = s.predict(x1)
y_lg_pred=s1.predict(x1)

tab_rd=pd.crosstab(y1,y_rd_pred,rownames=['actual'],colnames=['preds'])
tab_lg=pd.crosstab(y1,y_lg_pred,rownames=['actual'],colnames=['preds'])
print tab_rd,tab_lg

putin_x_filter=pd.read_csv("putin_x_filter1.csv") #讀取測試資料
putin_rd_pred=s.predict(putin_x_filter)#獲得隨機森林預測結果
putin_lg_pred=s1.predict(putin_x_filter)#獲得邏輯迴歸預測結果

result = pd.DataFrame(putin_lg_pred)#邏輯迴歸結果轉化成pandas資料框
result.to_csv("predictions.csv", index=False)#輸出預測結果到predictions檔案

result = pd.DataFrame(putin_rd_pred)#邏輯迴歸結果轉化成pandas資料框
result.to_csv("predictions_rd.csv", index=False)#輸出預測結果到predictions_rd檔案

這裡截取了兩次交叉驗證結果，第一個為隨機森林，明顯要比邏輯迴歸好很多。這裡強調不是邏輯迴歸不好，而是應該對特徵工程要求更加嚴格。

隨機森林二分類建模

隨機森林二分類建模

機器學習實戰-隨機森林二分類問題

基於隨機森林的分類與迴歸

吳裕雄 python 機器學習——集成學習隨機森林RandomForestClassifier分類模型

基於隨機森林的化合物活性二分類模型

【火爐煉AI】機器學習051-視覺詞袋模型+極端隨機森林建立圖像分類器

OpenCV3 SVM ANN Adaboost KNN 隨機森林等機器學習方法對OCR分類

DL之RNN：基於TF利用RNN實現簡單的序列資料型別(DIY序列資料集)的二分類(線性序列&隨機序列)

利用scikit-learn庫實現隨機森林分類演算法

python實現隨機森林、邏輯回歸和樸素貝葉斯的新聞文本分類

基於邏輯迴歸/決策樹/隨機森林/多層感知分類器/xgboost/樸素貝葉斯分類的資訊多分類效能對比

整合學習和隨機森林——自學第十二篇

DL之RNN：基於TF利用RNN實現簡單的序列資料型別(DIY序列資料集)的二分類(線性序列&隨機序列)

scikit-learn /sklearn ：整合學習之隨機森林分類器（Forests of Randomized Tree）官方檔案翻譯

Spark隨機森林演算法對資料分類（一）——計算準確率和召回率

機器學習之分類器——Matlab中各種分類器的使用總結（隨機森林、支援向量機、K近鄰分類器、樸素貝葉斯等）

EL之RF(RFC)：利用RF對二分類問題進行建模並評估

EL之GB(GBC)：利用GB對二分類問題進行建模並評估

spark mllib原始碼分析之隨機森林(Random Forest)（二）

隨機森林分類和adaboost分類方法的異同之處

隨機森林二分類建模

相關推薦