寶具滑 / JS簡單實現決策樹(ID3演算法)

阿新 • • 發佈：2019-01-23

<script> 
// 文章: https://www.jianshu.com/p/2b50a98cd75c
    function DecisionTree(config) {
        if (typeof config == "object" && !Array.isArray(config)) this.training(config);
    };
    DecisionTree.prototype = {
        _predicates: {//分割函式
            '==': function (a, b) { return a == b },//針對非數字值的比較
            '>=': function (a, b) { return a >= b }//針對數值的比較
        },
        //統計屬性值在資料集中的次數
        countUniqueValues(items, attr) {
            var counter = {};// 獲取不同的結果值 與出現次數
            for (var i of items) {
                if (!counter[i[attr]]) counter[i[attr]] = 0;
                counter[i[attr]] += 1;
            }
            return counter;
        },
        //獲取物件中值最大的Key  假設 counter={a:9,b:2} 得到 "a" 
        getMaxKey(counter) {
            var mostFrequentValue;
            for (var k in counter) {
                if (!mostFrequentValue) mostFrequentValue = k;
                if (counter[k] > counter[mostFrequentValue]) {
                    mostFrequentValue = k;
                }
            };
            return mostFrequentValue;
        },
        //尋找最頻繁的特定屬性值
        mostFrequentValue(items, attr) {
            return this.getMaxKey(this.countUniqueValues(items, attr));//計算值的出現數
        },
        //根據屬性切割資料集 
        split(items, attr, predicate, pivot) {
            var data = {
                match: [],//適合的資料集
                notMatch: []//不適合的資料集
            }
            for (var item of items) { //遍歷訓練集  
                if (predicate(item[attr], pivot)) {//比較是否滿足條件
                    data.match.push(item);
                } else {
                    data.notMatch.push(item);
                }
            };
            return data;
        },
        //計算熵
        entropy(items, attr) {
            var counter = this.countUniqueValues(items, attr);//計算值的出現數
            var p, entropy = 0;//H(S)=entropy=∑(P(Xi)(log2(P(Xi))))
            for (var i in counter) {//entropy+=-(P(Xi)(log2(P(Xi))))
                p = counter[i] / items.length;//P(Xi)概率值
                entropy += -p * Math.log2(p);
            }
            return entropy;
        },
        buildDecisionTree(config) {
            var trainingSet = config.trainingSet;//訓練集
            var minItemsCount = config.minItemsCount;//訓練集項數
            var categoryAttr = config.categoryAttr;//用於區分的類別屬性
            var entropyThrehold = config.entropyThrehold;//熵閾值
            var maxTreeDepth = config.maxTreeDepth;//遞迴深度
            var ignoredAttributes = config.ignoredAttributes;//忽略的屬性
            // 樹最大深度為0 或訓練集的大小 小於指定項數 終止樹的構建過程
            if ((maxTreeDepth == 0) || (trainingSet.length <= minItemsCount)) {
                return { category: this.mostFrequentValue(trainingSet, categoryAttr) };
            }
            //初始計算 訓練集的熵
            var initialEntropy = this.entropy(trainingSet, categoryAttr);//<===H(S)
            //訓練集熵太小 終止
            if (initialEntropy <= entropyThrehold) {
                return { category: this.mostFrequentValue(trainingSet, categoryAttr) };
            }
            var alreadyChecked = [];//標識已經計算過了
            var bestSplit = { gain: 0 };//儲存當前最佳的分割節點資料資訊
            //遍歷資料集
            for (var item of trainingSet) {
                // 遍歷項中的所有屬性
                for (var attr in item) {
                    //跳過區分屬性與忽略屬性
                    if ((attr == categoryAttr) || (ignoredAttributes.indexOf(attr) >= 0)) continue;
                    var pivot = item[attr];// 當前屬性的值 
                    var predicateName = ((typeof pivot == 'number') ? '>=' : '=='); //根據資料型別選擇判斷條件
                    var attrPredPivot = attr + predicateName + pivot;
                    if (alreadyChecked.indexOf(attrPredPivot) >= 0) continue;//已經計算過則跳過
                    alreadyChecked.push(attrPredPivot);//記錄
                    var predicate = this._predicates[predicateName];//匹配分割方式
                    var currSplit = this.split(trainingSet, attr, predicate, pivot);
                    var matchEntropy = this.entropy(currSplit.match, categoryAttr);//  H(match) 計算分割後合適的資料集的熵
                    var notMatchEntropy = this.entropy(currSplit.notMatch, categoryAttr);// H(on match) 計算分割後不合適的資料集的熵
                    //計算資訊增益: 
                    // IG(A,S)=H(S)-(∑P(t)H(t))) 
                    // t為分裂的子集match(匹配),on match(不匹配)
                    // P(match)=match的長度/資料集的長度
                    // P(on match)=on match的長度/資料集的長度
                    var iGain = initialEntropy - ((matchEntropy * currSplit.match.length
                        + notMatchEntropy * currSplit.notMatch.length) / trainingSet.length);
                    //不斷匹配最佳增益值對應的節點資訊
                    if (iGain > bestSplit.gain) {
                        bestSplit = currSplit; 
                        bestSplit.predicateName = predicateName;
                        bestSplit.predicate = predicate;
                        bestSplit.attribute = attr;
                        bestSplit.pivot = pivot;
                        bestSplit.gain = iGain;
                    }
                }
            }

            // 找不到最優分割
            if (!bestSplit.gain) {
                return { category: this.mostFrequentValue(trainingSet, categoryAttr) };
            }
            // 遞迴繫結子樹枝
            config.maxTreeDepth = maxTreeDepth - 1;//減小1深度
            config.trainingSet = bestSplit.match;//將切割 match 訓練集作為下一節點的訓練集
            var matchSubTree = this.buildDecisionTree(config);//遞迴匹配子樹節點
            config.trainingSet = bestSplit.notMatch;//將切割 notMatch 訓練集作為下一節點的訓練集
            var notMatchSubTree = this.buildDecisionTree(config);//遞迴匹配子樹節點 
            return  {
                attribute: bestSplit.attribute,
                predicate: bestSplit.predicate,
                predicateName: bestSplit.predicateName,
                pivot: bestSplit.pivot,
                match: matchSubTree,
                notMatch: notMatchSubTree,
                matchedCount: bestSplit.match.length,
                notMatchedCount: bestSplit.notMatch.length
            };
        },
        training(config) {
            this.root = this.buildDecisionTree({
                trainingSet: config.trainingSet,//訓練集
                ignoredAttributes: config.ignoredAttributes || [],// 被忽略的屬性比如:姓名、名稱之類的
                categoryAttr: config.categoryAttr || 'category',//用於區分的類別屬性
                minItemsCount: config.minItemsCount || 1,//最小項數量
                entropyThrehold: config.entropyThrehold || 0.01,//熵閾值
                maxTreeDepth: config.maxTreeDepth || 70//遞迴的最大深度 
            });
        },
        //預測 測試
        predict(data) {
            var attr, value, predicate, pivot;
            var tree = this.root;
            while (true) {
                if (tree.category) {
                    return tree.category;
                }
                attr = tree.attribute;
                value = data[attr];
                predicate = tree.predicate;
                pivot = tree.pivot;
                if (predicate(value, pivot)) {
                    tree = tree.match;
                } else {
                    tree = tree.notMatch;
                }
            }
        }
    };
</script>
<script>
    var data =
        [
            { "姓名": "餘夏", "年齡": 29, "長相": "帥", "體型": "瘦", "收入": "高", 見面: "見" },
            { "姓名": "豆豆", "年齡": 25, "長相": "帥", "體型": "瘦", "收入": "高", 見面: "見" },
            { "姓名": "帥常榮", "年齡": 26, "長相": "帥", "體型": "胖", "收入": "高", 見面: "見" },
            { "姓名": "王濤", "年齡": 22, "長相": "帥", "體型": "瘦", "收入": "高", 見面: "見" },
            { "姓名": "李東", "年齡": 23, "長相": "帥", "體型": "瘦", "收入": "高", 見面: "見" },
            { "姓名": "王五五", "年齡": 23, "長相": "帥", "體型": "瘦", "收入": "低", 見面: "見" },
            { "姓名": "王小濤", "年齡": 22, "長相": "帥", "體型": "瘦", "收入": "低", 見面: "見" },
            { "姓名": "李繽", "年齡": 21, "長相": "帥", "體型": "胖", "收入": "高", 見面: "見" },
            { "姓名": "劉明", "年齡": 21, "長相": "帥", "體型": "胖", "收入": "低", 見面: "不見" },
            { "姓名": "紅鶴", "年齡": 21, "長相": "不帥", "體型": "胖", "收入": "高", 見面: "不見" },
            { "姓名": "李理", "年齡": 32, "長相": "帥", "體型": "瘦", "收入": "高", 見面: "不見" },
            { "姓名": "周州", "年齡": 31, "長相": "帥", "體型": "瘦", "收入": "高", 見面: "不見" },
            { "姓名": "李樂", "年齡": 27, "長相": "不帥", "體型": "胖", "收入": "高", 見面: "不見" },
            { "姓名": "韓明", "年齡": 24, "長相": "不帥", "體型": "瘦", "收入": "高", 見面: "不見" },
            { "姓名": "小呂", "年齡": 28, "長相": "帥", "體型": "瘦", "收入": "低", 見面: "不見" },
            { "姓名": "李四", "年齡": 25, "長相": "帥", "體型": "瘦", "收入": "低", 見面: "不見" },
            { "姓名": "王鵬", "年齡": 30, "長相": "帥", "體型": "瘦", "收入": "低", 見面: "不見" },
        ];
    var decisionTree = new DecisionTree();
    console.log("函式 countUniqueValues 測試:");
    console.log("   長相", decisionTree.countUniqueValues(data, "長相"));//測試
    console.log("   年齡", decisionTree.countUniqueValues(data, "年齡"));//測試
    console.log("   收入", decisionTree.countUniqueValues(data, "收入"));//測試
    console.log("函式 entropy 測試:");
    console.log("   長相", decisionTree.entropy(data, "長相"));//測試
    console.log("   年齡", decisionTree.entropy(data, "年齡"));//測試
    console.log("   收入", decisionTree.entropy(data, "收入"));//測試
    console.log("函式 mostFrequentValue 測試:");
    console.log("   年齡", decisionTree.mostFrequentValue(data, "年齡"));//測試 
    console.log("   長相", decisionTree.mostFrequentValue(data, "長相"));//測試 
    console.log("   收入", decisionTree.mostFrequentValue(data, "收入"));//測試 
    console.log("函式 split 測試:");
    console.log("   長相", decisionTree.split(data, "長相", (a, b) => { return a == b }, "不帥"));//測試
    console.log("   年齡", decisionTree.split(data, "年齡", (a, b) => { return a >= b }, 30));//測試
    console.log("   年齡", decisionTree.split(data, "年齡", (a, b) => { return a < b }, 25));//測試

    decisionTree.training({
        trainingSet: data,//訓練集
        categoryAttr: '見面',//用於區分的類別屬性 
        ignoredAttributes: ['姓名']//被忽略的屬性
    });
    // 測試決策樹與隨機森林
    var comic = { "姓名": "劉建1", "年齡": 21, "長相": "帥", "體型": "瘦", "收入": "高" }; 
    console.log(comic,  decisionTree.predict(comic));
    comic = { "姓名": "劉建2", "年齡": 22, "長相": "不帥", "體型": "瘦", "收入": "高" }; 
    console.log(comic,  decisionTree.predict(comic));
    comic = { "姓名": "劉建3", "年齡": 27, "長相": "帥", "體型": "瘦", "收入": "低" }; 
    console.log(comic,  decisionTree.predict(comic));
    comic = { "姓名": "劉建4", "年齡": 30, "長相": "帥", "體型": "瘦", "收入": "高" }; 
    console.log(comic,  decisionTree.predict(comic));
    comic = { "姓名": "劉建5", "年齡": 29, "長相": "帥", "體型": "胖", "收入": "高" }; 
    console.log(comic,  decisionTree.predict(comic));
    comic = { "姓名": "劉建6", "年齡": 29, "長相": "帥", "體型": "胖", "收入": "低" }; 
    console.log(comic,  decisionTree.predict(comic));
    comic = { "姓名": "劉建7", "年齡": 40, "長相": "帥", "體型": "瘦", "收入": "低" }; 
    console.log(comic,  decisionTree.predict(comic));
</script>

寶具滑 / JS簡單實現決策樹(ID3演算法)

西瓜書決策樹ID3演算法實現，離散屬性

from math import log import operator import csv def readDataset(filename): ''' 讀取資料 :param filename: 資料檔名，CSV格式 :return: 以列表形式返回資料列

《機器學習實戰》決策樹(ID3演算法)的分析與實現

決策樹是一個預測模型；他代表的是物件屬性與物件值之間的一種對映關係。樹中每個節點表示某個物件，而每個分叉路徑則代表的某個可能的屬性值，而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的物件的值。決策樹僅有單一輸出，若欲有複數輸出，可以建立獨立的決策樹以處理不同輸出。資料探勘中決策樹是一

決策樹ID3演算法-matlab實現

ID3_decision_tree.m %% 使用ID3決策樹演算法預測銷量高低 clear ; %% 資料預處理 disp('正在進行資料預處理...'); [matrix,attributes_label,attributes] = id3_pre

機器學習決策樹ID3演算法，手把手教你用Python實現

本文始發於個人公眾號：**TechFlow**，原創不易，求個關注今天是機器學習專題的第21篇文章，我們一起來看一個新的模型——決策樹。決策樹的定義決策樹是我本人非常喜歡的機器學習模型，非常直觀容易理解，並且和資料結構的結合很緊密。我們學習的門檻也很低，相比於那些動輒一堆公式的模型來說，實在是簡單

決策樹ID3演算法和C4.5演算法實戰

老師給的題目：程式碼實現【兩種演算法合在一個檔案裡】： from numpy import * def createDataSet(): dataSet = [[1, 1, 1, 0, 'no'], [1, 1, 1, 1, '

利用決策樹 ID3 演算法進行預測

決策樹：決策樹方法在分類、預測、規則提取等領域被廣泛應用決策樹是樹狀結構，它的每一個節點對應著一個分類，非葉節點對應著在某個屬性上的劃分，根據樣本在該屬性上的不同取值將其劃分城若干個子集。構造決策樹的核心問題是在每一步如何選擇適當的屬性對樣本做拆分。對一個分類問題，從一直分類

學習資料探勘決策樹ID3演算法

一個月前的C語言程式設計課上學習了決策樹ID3演算法然後自己用了兩個多星期的時間開始用C語言實現，結果由於過程太過於複雜，寫出來的東西就跟屎一樣。可能是自己對於這個演算法理解的不夠深刻，或者是在設計的時候沒有構思好。所以決定在這裡寫一寫大概的構思然後再去用C實現。這

決策樹ID3演算法

TypeError: 'dict_keys' object does not support indexing 9.TypeError: ‘dict_keys’ object does not support indexing 這個問題是python版本的問題

決策樹——ID3演算法

先上程式碼，理論有空補上，採用python 3.X編寫，沒有剪枝部分 import math import operator # 計算資料集的資訊熵 def calcEntropy(data): # label = [] numClass = {}

HTML+CSS+JS簡單實現支付寶付款界面效果

6.5 body pre -c css brush ges line col HTML+JS部分 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8">

JS簡單實現自定義右鍵菜單

ans idt 右鍵動畫忘記 span spa round 部分 RT，一個簡單的例子，僅僅講述原理 <div id="menu" style="width: 0;height: 0;background: cadetblue;position: absolu

javascript實現樸素貝葉斯分類與決策樹ID3分類

.com 訓練集 this ice map ive sum length roc 今年畢業時的畢設是有關大數據及機器學習的題目。因為那個時間已經步入前端的行業自然選擇使用JavaScript來實現其中具體的算法。雖然JavaScript不是做大數據處理的最佳語言，相比還沒有

js 簡單實現FIFO

js fifo /* ======================================== LRU 最近最少使用 ======================================== */ function FifoCache(limit){ limit = limit|

【Spark MLlib速成寶典】模型篇05決策樹【Decision Tree】（Python版）

back filter oms sse mlu eval ffffff size red 目錄　　決策樹原理　　決策樹代碼(Spark Python) 決策樹原理　　詳見博文：http://www.cnblogs.com/itmorn/p/79

簡單的決策樹

pri int ora print 分類 style sklearn class fit 1 #簡單的決策樹分類 2 from sklearn import tree 3 features = [[300,2],[450,2],[200,8],[150,9]] 4 lab

Python實現決策樹應用之判斷隱形眼鏡的型別

程式碼模組一、DecisionTreePlot # -*- coding:utf-8 -*- __author__ = 'yangxin_ryan' import matplotlib.pyplot as plt """ 定義文字框和箭頭格式【 sawtooth 波浪方框, rou

在OpenCV中實現決策樹和隨機森林

目錄 1.決策樹 2.隨機森林 1.決策樹需要注意的點： Ptr<TrainData> data_set = TrainData::loadFromCSV("mushroom.data",//檔名

Pyhton實現決策樹演算法 MNIST資料集

Pyhton實現決策樹演算法 MNIST資料集決策樹是一種比較接近人類思維方式的演算法，將樣本通過每個特徵值的資訊增益進行劃分，從而保證每個劃分之後的結果資訊熵的消減量達到最大。具體的原理請大家自己查詢相關資料。 sklearn實現程式碼如下, 準確率可以達到90%左右。 fr

JS-簡單實現1

正在xiaoxi JS的小白偶然看到部落格中一個關於jquery的小專案，於是拿來學習，然後自己用js初步實現了一下，可是小白畢竟還是小白…… 參考連結https://blog.csdn.net/dapyandxpy/article/details/73350506謝大佬 jque

寶具滑 / JS簡單實現決策樹(ID3演算法)

相關推薦