隨機森林_理論
阿新 • • 發佈:2018-10-25
amp 建立 缺點 容易 auto 屬性 很多 ima del .
理論: 從樣本集(N個數據點)選出n個樣本(有放回)建立分類器
重復m次,獲得m個分類器
過程:
1. 樣本的隨機:從N個數據點中隨機選擇n個樣本
2. 屬性的隨機:從所有屬性中隨機選擇k個屬性
3. 重復m次,,建立m顆決策樹
4. m棵決策樹形成隨機森林,投票決定結果
參數:
n_estimators=10, //棵樹
max_depth=None, //最大深度
max_features =auto//最大屬性 max_features=sqrt(n_features)
min_samples_leaf=1, //最少分裂樣本數
優點:
隨機性的引入,不容易過擬合
隨機性的引入,有很好的的抗噪聲能力
高維度的數據,不用做特征選擇
處理離散型,連續性,不用做特征規範
缺點:
決策樹個數很多時,時間和空間會很大
對於屬性值很多的字段,會對模型產生很大的影響
隨機森林_理論