機器學習之隨機森林——CART模型的PYTHON實現

機器學習之隨機森林——CART模型PYTHON實現

把機器學習的過程記錄一下。隨機森林即利用決策樹群對樣本進行訓練並預測的一種分類器，其與單棵決策樹相比可以平衡誤差。其中CART模型：

二叉決策樹 ，節點特徵只取值“是”與“否”；
輸入特徵的切分方式 ，啟發式方法：

當前輸入空間的切分變數假設為第 $j$ 輸入量 $x^{j}$ ，切分點為 $x^{j}$ 的取值 $s$ ，則切分的兩個區域為：

$R_{1}(j,s) = \{x|x^{j}<=s\} \quad and \quad R_{2}(j,s) = \{x|x^{j}>s\}$

R_{1} (j, s) = {x ∣ x^{j} < = s} a n d R_{2} (j, s) = {x ∣ x^{j} > s}

尋找最優的

j,s

，求解：

$min_{j,s}[min_{c_{1}}\sum_{x_{i}\in R_{1}(j,s)}(y_{i}-c_{1})^{2}+min_{c_{2}}\sum_{x_{i}\in R_{2}(j,s)}(y_{i}-c_{2})^{2}]$

s)∑(yi−c2)2] 而

c

可以：

$\hat{c}_{m} = \frac{1}{N_{m}}\sum_{x_{i}\in R_{m}(j,s)}y_{i} , \quad m=1,2$ 遍歷所有輸入變數，可找到最優 $j,s$ ，將該輸入空間分成兩個區域。對每個區域重複上述劃分過程，直到滿足停止條件，就生成一棵迴歸樹；

生成分類樹， CART決策樹使用基尼指數選擇最優特徵；
選擇資料集中不同的子資料集即可生成不同的 CART決策樹，測試資料集通過該決策樹集和多數決策，得到最終結果。

實現程式碼網上找的，稍微修改了一下，資料集用的是UCI的Wine Data Set （link）. 能夠直接執行。

pytho程式碼

#-*- coding: utf-8 -*-
# Random Forest Algorithm on Sonar Dataset
from random import seed
from random import randrange
from csv import reader
from math import sqrt
from math import log
# Load data file
def load_data(filename, ty):  #匯入csv檔案
    dataset = list()
    with open(filename, 'r') as file:
        if ty == 'csv':
            readers = reader(file)
            for row in readers:
                if not row:
                    continue
                dataset.append(row)
        else:
            while True:          # txt檔案
                readers = file.readline()
                if not readers:
                    break
                    pass
                p_tmp = [float(i) for i in readers.split(',')]
                dataset.append(p_tmp)
                pass

 ###   wine資料集預設類別標籤在第一列，統一放入最後一列
    length = len(dataset[0])-1
    sets = []
    for data in dataset:
        temp = data[1: length]+ [data[0]]
        sets.append(temp)
  #### --------------------
    return sets

# Convert string column to float
def str_column_to_float(dataset, column):  #將資料集的第column列轉換成float形式
    for row in dataset:
        row[column] = float(row[column])  #strip()返回移除字串頭尾指定的字元生成的新字串。

# Convert string column to integer
def str_column_to_int(dataset, column):    #將最後一列表示標籤的值轉換為Int型別0,1,...
    class_values = [row[column] for row in dataset]
    unique = set(class_values)
    lookup = dict()
    for i, value in enumerate(unique):
        lookup[value] = i
    for row in dataset:
        row[column] = lookup[row[column]]
    return lookup

# Split a dataset into k folds
def cross_validation_split(dataset, n_folds):  #將資料集dataset分成n_flods份，每份包含len(dataset) / n_folds個值，每個值由dataset資料集的內容隨機產生，每個值被使用一次
    dataset_split = list()
    fold_size = len(dataset) / n_folds
    for i in range(n_folds):
        fold = list()   #每次迴圈fold清零，防止重複匯入dataset_split
        dataset_copy = list(dataset)  #
        while len(fold) < fold_size:   #這裡不能用if，if只是在第一次判斷時起作用，while執行迴圈，直到條件不成立
            index = randrange(len(dataset_copy))
            fold.append(dataset_copy.pop(index))  #將對應索引index的內容從dataset_copy中匯出，並將該內容從dataset_copy中刪除。pop() 函式用於移除列表中的一個元素（預設最後一個元素），並且返回該元素的值。
        dataset_split.append(fold)
    return dataset_split    #由dataset分割出的n_folds個數據構成的列表，為了用於交叉驗證

# Calculate accuracy percentage
def accuracy_metric(actual, predicted):  #匯入實際值和預測值，計算精確度
    correct = 0
    for i in range(len(actual)):
        if actual[i] == predicted[i]:
            correct += 1
    return correct / float(len(actual)) * 100.0



# Split a dataset based on an attribute and an attribute value #根據特徵和特徵值分割資料集
def test_split(index, value, dataset):
    left, right = list(), list()
    for row in dataset:
        if row[index] < value:
            left.append(row)
        else:
            right.append(row)
    return left, right

# Calculate the Gini index for a split dataset
def gini_index(groups, class_values):   #分類越準確，則gini越小
    gini = 0.0
    for class_value in class_values:  #class_values =[0,1]
        for group in groups:          #groups=(left,right)
            size = len(group)
            if size == 0:
                continue
            proportion = [row[-1] for row in group].count(class_value) / float(size)
            gini += (proportion * (1.0 - proportion))
    return gini

# Select the best split point for a dataset  #找出分割資料集的最優特徵，得到最優的特徵index，特徵值row[index]，以及分割完的資料groups（left,right）
def get_split(dataset, n_features):
    class_values = list(set(row[-1] for row in dataset))  #class_values =[0,1]
    b_index, b_value, b_score, b_groups = 999, 999, 999, None
    features = list()
    while len(features) < n_features:
        index = randrange(1,len(dataset[0]))  #往features新增n_features個特徵（n_feature等於特徵數的根號），特徵索引從dataset中隨機取
        if index not in features:
            features.append(index)
    for index in features:        #在n_features個特徵中選出最優的特徵索引，並沒有遍歷所有特徵，從而保證了每課決策樹的差異性
        for row in dataset:
            groups = test_split(index, row[index], dataset)  #groups=(left,right)；row[index]遍歷每一行index索引下的特徵值作為分類值value，找出最優的分類特徵和特徵值
            gini = gini_index(groups, class_values)
            if gini < b_score:
                b_index, b_value, b_score, b_groups = index, row[index], gini, groups  #最後得到最優的分類特徵b_index,分類特徵值b_value,分類結果b_groups。b_value為分錯的代價成本。
    #print b_score
    return {'index':b_index, 'value':b_value, 'groups':b_groups}

# Create a terminal node value #輸出group中出現次數較多的標籤
def to_terminal(group):
    outcomes = [row[-1] for row in group]           #max()函式中，當key引數不為空時，就以key的函式物件為判斷的標準;
    return max(set(outcomes), key=outcomes.count)   # 輸出group中出現次數較多的標籤

# Create child splits for a node or make terminal  #建立子分割器，遞迴分類，直到分類結束
def split(node, max_depth, min_size, n_features, depth):  #max_depth = 10，min_size = 1，n_features = int(sqrt(len(dataset[0])-1))
    left, right = node['groups']
    del(node['groups'])
# check for a no split
    if not left or not right:
        node['left'] = node['right'] = to_terminal(left + right)
        return
# check for max depth
    if depth >= max_depth:
        node['left'], node['right'] = to_terminal(left), to_terminal(right)
        return
# process left child
    if len(left) <= min_size:
        node['left'] = to_terminal(left)
    else:
        node['left'] = get_split(left, n_features)  #node['left']是一個字典，形式為{'index':b_index, 'value':b_value, 'groups':b_groups}，所以node是一個多層字典
        split(node['left'], max_depth, min_size, n_features, depth+1)  #遞迴，depth+1計算遞迴層數
# process right child
    if len(right) <= min_size:
        node['right'] = to_terminal(right)
    else:
        node['right'] = get_split(right, n_features)
        split(node['right'], max_depth, min_size, n_features, depth+1)

# Build a decision tree
def build_tree(train, max_depth, min_size, n_features):
    #root = get_split(dataset, n_features)
    root = get_split(train, n_features)
    split(root, max_depth, min_size, n_features, 1)
    return root

# Make a prediction with a decision tree
def predict(node, row):   #預測模型分類結果
    if row[node['index']] < node['value']:
        if isinstance(node['left'], dict):    #isinstance是Python中的一個內建函式。是用來判斷一個物件是否是一個已知的型別。
            return predict(node['left'], row)
        else:
            return node['left']
    else:
        if isinstance(node['right'], dict):
            return predict(node['right'], row)
        else:
            return node['right']

# Make a prediction with a list of bagged trees
def bagging_predict(trees, row):
    predictions = [predict(tree, row) for tree in trees]  #使用多個決策樹trees對測試集test的第row行進行預測，再使用簡單投票法判斷出該行所屬分類
    return max(set(predictions), key=predictions.count)

# Create a random subsample from the dataset with replacement
def subsample(dataset, ratio):   #建立資料集的隨機子樣本
    sample = list()
    n_sample = round(len(dataset) * ratio)   #round() 方法返回浮點數x的四捨五入值。
    while len(sample) < n_sample:
        index = randrange(len(dataset))  #有放回的隨機取樣，有一些樣本被重複取樣，從而在訓練集中多次出現，有的則從未在訓練集中出現，此則自助取樣法。從而保證每棵決策樹訓練集的差異性
        sample.append(dataset[index])
    return sample

# Random Forest Algorithm
def random_forest(train, test, max_depth, min_size, sample_size, n_trees, n_features):
    trees = list()
    for i in range(n_trees):   #n_trees表示決策樹的數量
        sample = subsample(train, sample_size)  #隨機取樣保證了每棵決策樹訓練集的差異性
        tree = build_tree(sample, max_depth, min_size, n_features)  #建立一個決策樹
        trees. 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    機器學習之隨機森林——CART模型的PYTHON實現
      
							
							
							機器學習之隨機森林——CART模型PYTHON實現
把機器學習的過程記錄一下。隨機森林即利用決策樹群對樣本進行訓練並預測的一種分類器，其與單棵決策樹相比可以平衡誤差。
其中CART模型：

二叉決策樹 ，節點特徵只取值“是”與“否”；
輸入特徵的切分方式  ，啟 

  
 

    

    
    機器學習之隨機森林RandomForestRegressor
       
 
  
  
  
  機器學習之隨機森林RandomForestRegressor 
  
 # -*- coding: utf-8 -*-
"""
Created on Tue Dec  4 18:29:45 2018

@author: muli
"""

import matplotlib.py 

  
 

    

    
    機器學習之隨機森林RandomForestClassifier
       
 
  
  
  
  機器學習之隨機森林RandomForestClassifier 
  
 # -*- coding: utf-8 -*-
"""
Created on Mon Dec  3 22:26:54 2018

@author: muli
"""

import matplotlib.p 

  
 

    

    
    【八】機器學習之路——梯度下降法python實現
      
							
							
							  前面的部落格線性迴歸python實現講了如何用python裡sklearn自帶的linearRegression()函式來擬合數據的實現方式。今天咱們來介紹下，如何用梯度下降法擬合數據。 
  還記得梯度下降法是怎麼做的嗎？忘記的同學可以回頭看下前面的部落格 

  
 

    

    
    【機器學習】隨機森林 Random Forest 得到模型後，評估參數重要性
      img   eas   一個   increase   裏的   sum   示例   增加   機器   在得出random forest 模型後，評估參數重要性
importance（） 示例如下

 
特征重要性評價標準
%IncMSE 是 increase in MSE。就是對每一個變量 比如 X1  

  
 

    

    
    系統學習機器學習之隨機場(三)--MRF,CRF及幾種模型對比
      
                

條件隨機場(Conditional random fields)，是一種判別式圖模型，因為其強大的表達能力和出色的效能，得到了廣泛的應用。從最通用角度來看，CRF本質上是給定了觀察值集合 (observations)的馬爾可夫隨機場（MRF）。在這裡，我們直接從最通用的角 

  
 

    

    
    系統學習機器學習之隨機場(二)--MEMM
       
 
 
      最大熵模型（Maximum Entropy Models, MaxEnt）是基於大熵理論的統計模型， 廣泛應用於模式識別和統計評估中。最大熵原理有一個很長的歷史，其中最大熵理論方面的先驅 E.T.Jaynes 在 1990 年給出了最大熵原理的基本屬性：最 

  
 

    

    
    機器學習---演算法---隨機森林演算法
      轉自：http://python.jobbole.com/86811/ 
目錄 
 
 1 什麼是隨機森林 
   
   1.1 整合學習 
   1.2 隨機決策樹 
   1.3 隨機森林 
   1.4 投票 
    
 2 為什麼要用它 
 3 使用方法 
   
   3.1 變數選擇 
    

  
 

    

    
    機器學習之混合高斯模型(Gaussian Mixture Model)聚類演算法+程式碼
      
							
							
							機器學習之混合高斯模型聚類演算法1 演算法原理2 演算法例項3 典型應用參考資料

機器學習分為監督學習、無監督學習和半監督學習(強化學習)。無監督學習最常應用的場景是聚類(clustering)和降維(dimension reduction)。聚類演算法包括： 

  
 

    

    
    scikit-learn /sklearn ： 整合學習 之 隨機森林分類器（Forests of Randomized Tree）官方檔案翻譯
      
                整合學習 之 隨機森林分類器

整合學習的定義和分類。
	隨機森林法的定義和分類。
	隨機森林sklearn.ensemble.RandomForestClassifier()引數分類和含義。
	附註：Bias和Variance的含義和關係。
一、整合學習 （Ensemble 

  
 

    

    
    機器學習：隨機森林演算法及其實現
       
  
  
 
 
  文章目錄
  
   隨機森林演算法描述：
   如何對features進行bootstrap?
   演算法程式碼實現：
  
 
  
 隨機森林演算法描述： 
  
 如何對features進行bootstrap? 
 我們需要一個feature_bound引數，每次把可以選 

  
 

    

    
    系統學習機器學習之隨機場(四)--CRF++原始碼分析
      
                

1. 簡述

    最近要應用CRF模型，進行序列識別。選用了CRF++工具包，具體來說是在VS2008的C#環境下，使用CRF++的windows版本。本文總結一下了解到的和CRF++工具包相關的資訊。

    參考資料是CRF++的官方網站：CRF++: Yet  

  
 

    

    
    系統學習機器學習之隨機場(一)--HMM
      
								
								            
						
                
HMM(隱馬爾科夫模型)是自然語言處理中的一個基本模型，用途比較廣泛，如漢語分詞、詞性標註及語音識別等，在NLP中佔有很重要的地位。網上關於HMM的介紹講解文件很多，我自己當時開始看的時候也有點稀裡糊 

  
 

    

    
    機器學習：隨機森林（Random Forest）
      
							
							
							隨機森林，Random Forest，簡稱RF，是一個很強大的模型。要研究隨機森林，首先要研究決策樹，然後再去看RF是怎麼通過多顆決策樹的整合提高的模型效果。

決策樹分為三種，分別是ID3、C4.5和CART決策樹：

ID3：資訊增益 
C4.5：資訊增益率 

  
 

    

    
    機器學習實戰-隨機森林二分類問題
      lena   elf   線性   評估   形式   www.   分類器   and   數據   隨機森林
概論
前提
Random Forest:可以理解為Bagging with CARTS.
Bagging是bootstrap aggregating（引導聚集算法）的縮寫。
CART(c 

  
 

    

    
    大白話5分鐘帶你走進人工智慧-第二十八節整合學習之隨機森林概念介紹(1)
                                &nbs 

  
 

    

    
    大白話5分鐘帶你走進人工智慧-第二十九節整合學習之隨機森林隨機方式 ，out  of  bag  data及程式碼(2)
                大白話5分鐘帶你走進人工智慧-第二十九節整合學習之隨機森林隨機方式 ，out  of  bag  data及程式碼(2)
上一節中我們講解了隨機森林的基本概念，本節的話 

  
 

    

    
    100天搞定機器學習|Day56 隨機森林工作原理及調參實戰（信用卡欺詐預測）
      本文是對100天搞定機器學習|Day33-34 隨機森林的補充
前文對隨機森林的概念、工作原理、使用方法做了簡單介紹，並提供了分類和迴歸的例項。
本期我們重點講一下：
1、整合學習、Bagging和隨機森林概念及相互關係
2、隨機森林引數解釋及設定建議
3、隨機森林模型調參實戰
4、隨機森林模型優缺點總結
整 

  
 

    

    
    機器學習實戰——樸素貝葉斯Python實現記錄
       
 
 問題：regEx= re.compile('\\W*') 
 屬於列印錯誤。 
 正確：     regEx = re.compile('\W*') 
 regEx = re.compile('\W*') 
 關於'\W' 和'\w'區別，可參考部落格：https:// 

  
 

    

    
    【機器學習】Weighted LSSVM原理與Python實現：LSSVM的稀疏化改進
       
  
  
 
 
  【機器學習】Weighted LSSVM原理與Python實現：LSSVM的稀疏化改進
  
   一、LSSVM
   
    1、LSSVM用於迴歸
    2、LSSVM模型的缺點
   
   二、WLSSVM的數學原理
   三、WLSSVM的python實現
   參

機器學習之隨機森林——CART模型的PYTHON實現

pytho程式碼

機器學習之隨機森林——CART模型的PYTHON實現

機器學習之隨機森林RandomForestRegressor

機器學習之隨機森林RandomForestClassifier

【八】機器學習之路——梯度下降法python實現

【機器學習】隨機森林 Random Forest 得到模型後，評估參數重要性

系統學習機器學習之隨機場(三)--MRF,CRF及幾種模型對比

系統學習機器學習之隨機場(二)--MEMM

機器學習---演算法---隨機森林演算法

機器學習之混合高斯模型(Gaussian Mixture Model)聚類演算法+程式碼

scikit-learn /sklearn ：整合學習之隨機森林分類器（Forests of Randomized Tree）官方檔案翻譯

機器學習：隨機森林演算法及其實現

系統學習機器學習之隨機場(四)--CRF++原始碼分析

系統學習機器學習之隨機場(一)--HMM

機器學習：隨機森林（Random Forest）

機器學習實戰-隨機森林二分類問題

大白話5分鐘帶你走進人工智慧-第二十八節整合學習之隨機森林概念介紹(1)

大白話5分鐘帶你走進人工智慧-第二十九節整合學習之隨機森林隨機方式，out of bag data及程式碼(2)

100天搞定機器學習|Day56 隨機森林工作原理及調參實戰（信用卡欺詐預測）

機器學習實戰——樸素貝葉斯Python實現記錄

【機器學習】Weighted LSSVM原理與Python實現：LSSVM的稀疏化改進