隨機森林程式碼註釋（C++版本）

阿新 • • 發佈：2019-01-05

</pre><pre name="code"class="cpp">#include <iostream>

#include <fstream>

#include <sstream>

#include "random_forest.h"

using namespace std;

vector<decision_tree*> alltrees; // 森林（決策樹集合）

vector<TupleData> trainAll,train,test; // 樣本集

vector<int> attributes; // 屬性集（元素為屬性序號）

int trainAllNum = 0;

int testAllNum = 0;

int MaxAttr; // 屬性總數

int *ArrtNum; // 屬性個數集（元素為屬性最大值）

unsigned int F;

int tree_num = 100; // 決策樹個數

const int leafattrnum = -1; // 葉子節點的屬性序號

int TP = 0,

FN = 0,

FP = 0,

TN = 0,

TestP = 0,

TestN = 0;

// 讀入資料

void init(char * trainname, char * testname)

{

trainAllNum =readData(trainAll, trainname);

testAllNum = readData(test,testname);

calculate_attributes();

double temp =(double)trainAllNum;

temp =log(temp)/log(2.0);

F = (unsigned int)floor(temp+0.5)+1;

if(F>MaxAttr) F = MaxAttr;

}

// 初始化訓練樣本子集

void sub_init()

{

// 選取決策樹的訓練樣本集合

RandomSelectData(trainAll, train);

// 計算樣本屬性個數

calculate_ArrtNum();

}

// 讀資料

int readData(vector<TupleData>&data, const char* fileName)

{

ifstream fin;

fin.open(fileName);

string line;

int datanum=0;

// 每行資料作為一個樣本

while(getline(fin,line))

{

TupleData d;

istringstream stream(line);

string str;

// 設定每個樣本的標籤和內容

while(stream>>str)

{

if(str.find('+')==0)

{

d.label='+';

}

else if(str.find('-')==0)

{

d.label='-';

}

else

{

int j=stringtoint(str);

d.A.push_back(j);

}

data.push_back(d);

datanum++;

}

fin.close();

return datanum;

}

// 生成根節點的訓練樣本子集

voidRandomSelectData(vector<TupleData> &data, vector<TupleData>&subdata)

{

int index;

subdata.clear();

int d = 0;

while (d < trainAllNum)

{

index = rand() % trainAllNum;

subdata.push_back(data.at(index));

d++;

}

// 計算屬性序列

void calculate_attributes()

{

// 每個樣本必須具有相同的屬性個數

TupleData d = trainAll.at(0);

MaxAttr = d.A.size();

attributes.clear();

// 建立屬性集合attributes,元素為屬性序號

for (int i = 0; i < MaxAttr; i++)

{

attributes.push_back(i);

}

// 初始化屬性最大值序列，元素為屬性最大值

ArrtNum = new int[MaxAttr];

}

// 字串轉化為int

int stringtoint(string s)

{

int sum=0;

for(int i=0; s[i]!='\0';i++)

{

int j=int(s[i])-48;

sum=sum*10+j;

}

return sum;

}

// 計算ArrtNum元素值

void calculate_ArrtNum()

{

for(int i = 0; i < MaxAttr; i++) ArrtNum[i] = 0;

// ArrtNum元素值為屬性最大值

for (vector<TupleData>::const_iterator it = train.begin(); it !=train.end(); it++)

{

int i = 0;

for (vector<int>::const_iterator intt=(*it).A.begin();intt!=(*it).A.end();intt++)

{

int valuemax=(*intt)+1;

if(valuemax>ArrtNum[i]) ArrtNum[i]=valuemax;

i++;

}

// 計算熵

double Entropy(double p, double s)

{

double n = s - p;

double result = 0;

if (n != 0)

result += - double(n) / s * log(double(n) / s) / log(2.0);

if (p != 0)

result += double(-p) / s * log(double(p) / s) / log(2.0);

return result;

}

// 訓練一棵決策樹

int creat_classifier(decision_tree*&p, const vector<TupleData> &samples, vector<int>&attributes)

{

if (p == NULL)

p = new decision_tree();

// 根據樣本真實類別，輸出葉子節點類別

if (Allthesame(samples, '+'))

{

p->node.label = '+';

p->node.attrNum = leafattrnum;

p->childs.clear();

return 1;

}

if (Allthesame(samples, '-'))

{

p->node.label = '-';

p->node.attrNum = leafattrnum;

p->childs.clear();

return 1;

}

// 如果屬性序列為空，當前節點就為葉子節點

if (attributes.size() == 0)

{

p->node.label = Majorityclass(samples);

p->node.attrNum = leafattrnum;

p->childs.clear();

return 1;

}

// 計算當前節點的最優屬性

p->node.attrNum = BestGainArrt(samples, attributes);

// 中間節點無標籤

p->node.label = ' ';

// 計運算元節點候選屬性集合，候選集合元素越來越少

vector<int> newAttributes;

for (vector<int>::iterator it = attributes.begin(); it !=attributes.end(); it++)

if ((*it) != p->node.attrNum)

newAttributes.push_back((*it));

// 初始化樣本子集，建立maxvalue個樣本子集，也就說明該節點有maxvalue個子節點

// 為什麼不建立一個閾值，進行二分類？

int maxvalue = ArrtNum[p->node.attrNum];

vector<TupleData>* subSamples = newvector<TupleData>[maxvalue];

for (int i = 0; i < maxvalue; i++)

subSamples[i].clear();

// 將樣本集合分為樣本子集

for (vector<TupleData>::const_iterator it = samples.begin(); it !=samples.end(); it++)

{

// 對樣本進行分類，分別分到maxvalue個子節點中

// p->node.attrNum是當前節點的最優屬性序號

// (*it).A.at(p->node.attrNum)正是子節點的序號

// 基於當前節點最優屬性，計算當前樣本的歸類

subSamples[(*it).A.at(p->node.attrNum)].push_back((*it));

}

decision_tree *child;

for (int i = 0; i < maxvalue; i++)

{

child = new decision_tree;

if (subSamples[i].size() == 0)

child->node.label = Majorityclass(samples);

else

creat_classifier(child, subSamples[i], newAttributes);

p->childs.push_back(child);

}

delete[] subSamples;

return 0;

}

// 計算節點處的資訊增益

int BestGainArrt(constvector<TupleData> &samples, vector<int> &attributes)

{

int attr,

bestAttr = 0,

p = 0,

s = (int)samples.size();

// 計算正樣本個數

for (vector<TupleData>::const_iterator it = samples.begin(); it !=samples.end(); it++)

{

if ((*it).label == '+')

p++;

}

double infoD;

double bestResult = 0;

// 計算初始熵

infoD = Entropy(p, s);

vector<int> m_attributes;

// 隨機確定候選屬性集

RandomSelectAttr(attributes, m_attributes);

// 遍歷屬性（即主題），通過資訊增益篩選最優屬性

for (vector<int>::iterator it = m_attributes.begin(); it !=m_attributes.end(); it++)

{

attr = (*it);

double result = infoD;

// 第attr個屬性的最大屬性值

int maxvalue = ArrtNum[attr];

// 正負樣本集

int* subN = newint[maxvalue];

int* subP = newint[maxvalue];

int* sub = newint[maxvalue];

for (int i = 0; i < maxvalue; i++)

{

subN[i] = 0;

subP[i] = 0;

sub[i] = 0;

}

// 基於特定屬性，對當前訓練樣本進行分類

// 屬性計算這一步的確沒有，屬性值直接儲存在樣本中

for (vector<TupleData>::const_iterator jt = samples.begin(); jt !=samples.end(); jt++)

{

if ((*jt).label == '+')

subP[(*jt).A.at(attr)] ++;

else

subN[(*jt).A.at(attr)] ++;

sub[(*jt).A.at(attr)]++;

}

// 計算特定屬性下資訊增益（相對熵）

double SplitInfo = 0;

for(int i = 0; i < maxvalue; i++)

{

double partsplitinfo;

partsplitinfo =-double(sub[i])/s*log(double(sub[i])/s)/log(2.0);

SplitInfo =SplitInfo+partsplitinfo;

}

double infoattr = 0;

for (int i = 0; i < maxvalue; i++)

{

double partentropy;

partentropy = Entropy(subP[i],subP[i] + subN[i]);

infoattr =infoattr+((double)(subP[i] + subN[i])/(double)(s))*partentropy;

}

result = result - infoattr;

result = result / SplitInfo;

// 尋找最優屬性

if (result > bestResult)

{

bestResult = result;

bestAttr = attr;

}

delete[] subN;

delete[] subP;

delete[] sub;

}

if (bestResult == 0)

{

bestAttr=attributes.at(0);

}

return bestAttr;

}

void RandomSelectAttr(vector<int>&data, vector<int> &subdata)

{

int index;

unsigned int dataNum=data.size();

subdata.clear();

if(dataNum<=F)

{

for (vector<int>::iterator it = data.begin(); it != data.end();it++)

{

int attr = (*it);

subdata.push_back(attr);

}

else

{

set<int> AttrSet;

AttrSet.clear();

while (AttrSet.size() < F)

{

index = rand() % dataNum;

if (AttrSet.count(index) == 0)

{

AttrSet.insert(index);

subdata.push_back(data.at(index));

}

bool Allthesame(constvector<TupleData> &samples, char ch)

{

for (vector<TupleData>::const_iterator it = samples.begin(); it !=samples.end(); it++)

if ((*it).label != ch)

return false;

return true;

}

// 確定節點中哪個類別樣本個數最多

char Majorityclass(constvector<TupleData> &samples)

{

int p = 0, n = 0;

for (vector<TupleData>::const_iterator it = samples.begin(); it !=samples.end(); it++)

if ((*it).label == '+')

p++;

else

n++;

if (p >= n)

return '+';

else

return '-';

}

// 測試階段

char testClassifier(decision_tree *p,TupleData d)

{

// 抵達葉子節點

if (p->node.label != ' ')

return p->node.label;

// 節點處最優屬性

int attrNum = p->node.attrNum;

// 錯誤樣本

if (d.A.at(attrNum) < 0)

return ' ';

// 確定分支

return testClassifier(p->childs.at(d.A.at(attrNum)), d);

}

void testData()

{

for (vector<TupleData>::iterator it = test.begin(); it !=test.end(); it++)

{

printf("新樣本\n");

if((*it).label=='+') TestP++;

else TestN++;

int p = 0, n = 0;

for(int i = 0; i < tree_num; i++)

{

if(testClassifier(alltrees.at(i), (*it))=='+') p++;

else n++;

}

if(p>n)

{

if((*it).label=='+') TP++;

else FP++;

}

else

{

if((*it).label=='+') FN++;

else TN++;

}

void freeClassifier(decision_tree *p)

{

if (p == NULL)

return;

for (vector<decision_tree*>::iterator it = p->childs.begin();it != p->childs.end(); it++)

{

freeClassifier(*it);

}

delete p;

}

void freeArrtNum()

{

delete[] ArrtNum;

}

void showResult()

{

cout << "Train size: "<<trainAllNum<<endl;

cout << "Test size: "<<testAllNum<<endl;

cout << "True positive: "<< TP << endl;

cout << "False negative: "<<FN<<endl;

cout << "False positive: "<<FP<<endl;

cout << "True negative: "<<TN<<endl;

}

int main(int argc, char **argv)

{

char * trainfile=argv[1];

char* testfile=argv[2];

srand((unsigned)time(NULL));

// 初始化樣本

init("1.txt", "2.txt");

// 訓練階段

for(int i = 0; i < tree_num; i++)

{

printf("第 %d 棵決策樹訓練開始\n", i);

// 每棵樹的訓練樣本子集

sub_init();

// 訓練每棵決策樹

decision_tree * root=NULL;

creat_classifier(root, train, attributes);

// 建立森林

alltrees.push_back(root);

隨機森林程式碼註釋（C++版本）

</pre><pre name="code"class="cpp">#include <iostream> #include <fstream> #include <sstream> #include "random_forest.h" usin

微信小程式開放資料解密 AES-128-CBC 解密（C#版本）

最近朋友在弄微信小程式開發，需要跟微信服務端互動，微信敏感資料都有加密返回，需要在服務端接收進行解密後再返回給客戶端小程式，今天就通過C# 進行資料的解密，以下展示是C# 程式碼如果你使用的Java，請訪問這個地址（Java版本） https://blog.csdn

決策樹、隨機森林整合演算法（Titanic例項）

#coding:utf-8 import pandas #ipython notebook titanic = pandas.read_csv("titanic_train.csv") titanic.head(5) #print (titanic.describe()) t

視覺slam十四講ch5 joinMap.cpp 程式碼註釋（筆記版）

1 #include <iostream> 2 #include <fstream> 3 using namespace std; 4 #include <opencv2/core/core.hpp> 5 #include

資料結構（C#版本）_圖

推薦閱讀：我的CSDN 我的部落格園 QQ群：704621321 頂點的度=頂點的入度+頂點的出度。頂點 v 的入度是指以該頂點 v 為弧頭的弧的數目；頂點 v 的出度

劍指offer（C++版本）

劍指offer（c++版本）二維陣列查詢在一個二維陣列中（每個一維陣列的長度相同），每一行都按照從左到右遞增的順序排序，每一列都按照從上到下遞增的順序排序。請完成一個函式，輸入這樣的一個二維陣列和一個整數，判斷陣列中是否含有該整數。 class Soluti

FAT16檔案系統解析（C 版本）

//基本類 [葉帆工作室] http://blog.csdn.net/yefanqiu/publicclass DiskBase{ #region//MBR http://blog.csdn.net/yefanqiu/publicstruct PartitionTable { pub

Mask_RCNN程式碼研讀（matterport版本）系列文（二）- Feature Pyramid Network部份

Mask_RCNN程式碼研讀（matterport版本）系列文（二）- Feature Pyramid Network部份前言訓練及推論模式中的共同部份 Feature Pyramid Network 小結參考連結

排序演算法1：最快最簡單的排序——桶排序（C++版本）

下面我要開始摘抄總結了。。。。文字來源於部落格2。。。 1.什麼是桶排序桶排序，也叫做箱排序，是一種排序演算法，也是排序演算法中最快、最簡單的排序演算法。其中的思想是我們首先要知道所有待排序的範圍，然後需要有在這個範圍的同樣數量的桶，接

A*演算法解決八數碼問題（C++版本）

八數碼問題定義：八數碼問題也稱為九宮問題。在3×3的棋盤，擺有八個棋子，每個棋子上標有1至8的某一數字，不同棋子上標的數字不相同。棋盤上還有一個空格，與空格相鄰的棋子可以移到空格中。要求解決的問題是：給出一個初始狀態和一個目標狀態，找出一種從初始轉變成

cocos3.10遊戲移植到安卓平臺教程（c++版本）

流程簡介現在Cocos3.10移植遊戲到安卓平臺還是比較簡化了，你只需要下載好SDK,JDK,NDK,ANT，配置好壞境變數，安裝好JDK。再更改一下android.MK檔案，你就直接可以進行編譯了，當然編譯當中也許會因為C++平臺原因，NDK用的G++編

線性表、堆疊、佇列的特點，及程式碼實現（C語音）

一、線性表：線性表定義：線性表是n個數據元素的有限序列線性表有多種實現方式，線性、鏈式等，其中線性實現採用隨機儲存的方式：（線性）（鏈式）具體的說明大家可以看書對吧，這裡直接貼出實現C語言程式碼（下面是鏈式儲存實現）：#include<stdio.h> #inc

動態規劃問題（C++版本）

動態規劃(dynamic programming)是運籌學的一個分支，是求解決策過程(decision process)最優化的數學方法。本文將通過幾個例子來逐步向大家介紹動態規劃。首先應用動態規劃區去

SQLite學習筆記（十）-- 事務基本概念和程式碼實現（C++實現）

1.事務基本概念什麼是事務？事務是使用者定義的一些列資料操作，這些操作是一個完整的不可分的工作單元。一個事務要麼全部執行，要麼全部不執行。檢視案例例如銀行的轉賬操作，張三向李四轉賬1000元。該事務包含以下兩個操作： 1.張三賬戶上扣除1000

歸併排序的簡單實現（c++ 版本）

歸併排序歸併排序是建立在歸併操作上的一種有效的排序演算法,該演算法是採用分治法（Divide and Conquer）的一個非常典型的應用。將已有序的子序列合併，得到完全有序的序列；即先使每個子

隨機森林篩選變數（Python實現）

#文章轉自每日一Python公眾號當資料集的特徵過多時，容易產生過擬合，可以用隨機森林來在訓練之後可以產生一個

唐宇迪Seq2Seq程式碼+註釋（tensorflow1.2版本）

import pandas as pd import re import numpy as np import tensorflow as tf import time filename = 'E:\DataSets\Reviews.csv\Reviews.csv' r

決策樹（CART）、隨機森林、GBDT（GBRT）新手導讀及資料推薦，附加python實現程式碼

前言關於決策樹、隨機森林、GBDT（GBRT），這裡記錄我的一些理解，詳細的資料已經非常多了，也有很多好的部落格，再寫沒必要。推薦幾個有代表性的部落格，網際網路資源太多，良莠不齊。看了推薦的文章，你應該會有一個清晰的思路的。決策樹在理解決策樹時，在腦海裡面有個二叉樹的

決策樹模型組合之隨機森林與GBDT（轉）

Springboot 自動生成實體程式碼屬性帶註釋（未優化）詳細步驟（一）

框架：springboot+codemodel 自動生成實體程式碼 ①引入codemodel的jar  <dep

隨機森林程式碼註釋（C++版本）

相關推薦