基於資訊增益的離散化方法

阿新 • • 發佈：2018-12-22

class Feature_Discretization(object):

    def __init__(self):

        self.min_interval = 1  # 最小間隔
        self.min_epos = 0.05  # 資訊增益閾值
        self.final_bin = []  # 最終邊界

    def fit(self, x, y, min_interval=1):
        self.min_interval = min_interval
        # x = np.floor(x)
        # x = np.int32(x)
        min_val = np.min(x)
        bin_dict = {}
        bin_li = []
        for i in range(len(x)):
            pos = (x[i] - min_val) / min_interval * min_interval + min_val
            target = y[i]
            bin_dict.setdefault(pos, [0, 0])
            if target == 1:
                bin_dict[pos][0] += 1
            else:
                bin_dict[pos][1] += 1  # 標籤one-hot的操作

        for key, val in bin_dict.iteritems():
            t = [float(key)]
            t.extend(val)
            bin_li.append(t)

        bin_li.sort(cmp=None, key=lambda x: x[0], reverse=False)
        # print bin_li

        L_index = 0
        R_index = 1
        self.final_bin.append(bin_li[L_index][0])
        while True:
            L = bin_li[L_index]
            R = bin_li[R_index]
            # using infomation gain;    
            p1 = L[1] / (L[1] + L[2] + 0.0)
            p0 = L[2] / (L[1] + L[2] + 0.0)

            if p1 <= 1e-5 or p0 <= 1e-5:
                LGain = 0
            else:
                LGain = -p1 * np.log(p1) - p0 * np.log(p0)

            p1 = R[1] / (R[1] + R[2] + 0.0)
            p0 = R[2] / (R[1] + R[2] + 0.0)
            if p1 <= 1e-5 or p0 <= 1e-5:
                RGain = 0
            else:
                RGain = -p1 * np.log(p1) - p0 * np.log(p0)

            p1 = (L[1] + R[1]) / (L[1] + L[2] + R[1] + R[2] + 0.0)
            p0 = (L[2] + R[2]) / (L[1] + L[2] + R[1] + R[2] + 0.0)

            if p1 <= 1e-5 or p0 <= 1e-5:
                ALLGain = 0
            else:
                ALLGain = -p1 * np.log(p1) - p0 * np.log(p0)

            if np.absolute(ALLGain - LGain - RGain) <= self.min_epos:  # 根據資訊增益判定是否合成
                # concat the interval;    
                bin_li[L_index][1] += R[1]
                bin_li[L_index][2] += R[2]
                R_index += 1

            else:
                L_index = R_index
                R_index = L_index + 1
                self.final_bin.append(bin_li[L_index][0])

            if R_index >= len(bin_li):
                break
            if self.final_bin.__len__() >=5 :
                break

        # print 'feature bin:', self.final_bin

    def transform(self, x):
        res = []
        for e in x:
            index = self.get_Discretization_index(self.final_bin, e)
            res.append(index)

        res = np.asarray(res)
        return res

    def get_Discretization_index(self, Discretization_vals, val):
        index = -1
        for i in range(len(Discretization_vals)):
            e = Discretization_vals[i]
            if val <= e:
                index = i
                break

        return index

基於資訊增益的離散化方法

class Feature_Discretization(object): def __init__(self): self.min_interval = 1 # 最小間隔 self.min_epos = 0.05 # 資訊增益

連續系統的離散化方法

一、數值積分演算法 1.前向差分（顯式尤拉法）使用前向差分代替導數

Weka中的有監督的離散化方法

對應分析Weka中weka.filters.supervised.attribute.Discretize 涉及的其他類包括weka.filters.Filter 分析的巨集觀程式碼 Disc

＃＃＃＃＃好好好＃＃＃＃＃特徵離散化方法綜述

特徵離散化系列一方法綜述數值離散化在資料探勘和發現知識(data mining and knowledge discovery)方面扮演者重要的角色。許多研究表明歸納任務(induction tasks)能從離散化(discretization)中獲益：有離散值的規則通

常用特徵離散化方法

1規定劃分區間的引數，取定長的間隔將特徵放入不同的箱子中，這種方法對異常點比較敏感。，2 根據頻率劃分箱子，會出現特徵相同卻不在一個箱子中的情況，需要在劃分完成後進行微調。先對特徵值進行sort，然後評估分割點，劃分或者合併3 1R方法：將前面的m個例項放入箱子中如果後面例項

連續特徵離散化方法介紹

1. 離散化技術分類連續屬性的離散化方法也可以被稱為分箱法，即將一組連續的值根據一定的規則分別放到其術語的集合中。離散化技術可以根據如何對資料進行離散化加以分類，可以根據是否使用類資訊或根據進行方向(即自頂向下或自底向上)分類。如果離散化過程使用類

《程式設計師的第一年》---------- 資料探勘之資料處理（C#基於熵的離散化演算法程式碼）

熵（entropy）是最常用的離散化度量之一。它由Claude Shannon在資訊理論和資訊增益概念的開創性工作中首次引進。基於熵的離散化是一種監督的、自頂向下的分裂技術。它在計算和確定分裂點（劃分屬性區間的資料值）時利用類分佈資訊。為了離散數值屬性A，該方法選擇A的具

基於資訊增益的決策樹歸納的Python實現【CD4.5演算法】

# -*- coding: utf-8 -*- import numpy as np import matplotlib.mlab as mlab import matplotlib.pyplot as plt from copy import copy #載入訓練資料

西瓜書課後習題4.3 基於資訊熵決策樹，連續和離散屬性，並驗證模型

import matplotlib.pyplot as plt import numpy as np from math import log import operator import csv def readDataset(filename): ''' 讀取資料 :

大資料生物資訊學特徵選擇方法：基於搜尋的視角

#引用 ##LaTex @article{WANG201621, title = “Feature selection methods for big data bioinformatics: A survey from the search perspecti

西瓜書習題4.3 基於資訊熵決策樹，連續和離散屬性

from math import log import operator import csv def readDataset(filename): ''' 讀取資料 :param filename: 資料檔名，CSV格式 :return:

連續特徵進行離散化的方法介紹與應用例子

RT，尤其在logistic regression上，需要把一些連續特徵進行離散化處理。離散化除了一些計算方面等等好處，還可以引入非線性特性，也可以很方便的做cross-feature。連續特徵離散化處理有什麼好的方法，有時候為什麼不直接歸一化？這裡主要說明監督

特徵離散化系列(一)方法綜述

特徵離散化系列一方法綜述數值離散化在資料探勘和發現知識(data mining and knowledge discovery)方面扮演者重要的角色。許多研究表明歸納任務(induction tasks)能從離散化(discretization)中獲益：

離散化特徵的方法

在logistic regression上，需要把一些連續特徵進行離散化處理。離散化除了一些計算方面等等好處，還可以引入非線性特性，模型會更穩定連續性變數轉化成離散型變數大致有兩類方法：

acm資料預處理 —— 離散化的兩種方法

部落格目錄引言如果我們要處理一些資料，如果：我們只關心資料之間相對大小，而不關心每個資料到底有多大離散化的大體意思就是：給資料重新編號，使新號碼依然具有跟之前相同的大小關係，來使資料更加緊湊。比如說：給一個無向圖，每個節點都以一個字元表示，那麼我們就可以將

粒子群優化演算法(PSO)之基於離散化的特徵選擇(FS)（二）

作者：Geppetto 前面我們介紹了特徵選擇(Feature Selection，FS)與離散化資料的重要性，總覽的介紹了PSO在FS中的重要性和一些常用的方法。今天講一講FS與離散化的背景，介紹本文所採用的基於熵的切割點和最小描述長度原則(MDLP

特徵選擇方法之資訊增益

前文提到過，除了開方檢驗（CHI）以外，資訊增益（IG，Information Gain）也是很有效的特徵選擇方法。但凡是特徵選擇，總是在將特徵的重要程度量化之後再進行選擇，而如何量化特徵的重要性，就成了各種方法間最大的不同。開方檢驗中使用特徵與類別間的關聯性來進行這個量

連續系統離散化的方法

http://www.docin.com/DocinViewer-1404447028-144.swf 5.2.1 連續系統離散化方法 1、反向差分變換法對於給定的（5.

連續特徵離散化的方法

在工業界，很少直接將連續值作為邏輯迴歸模型的特徵輸入，而是將連續特徵離散化為一系列0、1特徵交給邏輯迴歸模型，這樣做的優勢有以下幾點： 0. 離散特徵的增加和減少都很容易，易於模型的快速迭代； 1. 稀疏向量內積乘法運算速度快，計算結果方便儲存，容易擴充套件； 2. 離散化後的特徵對異常資料有很強的魯棒性：

基於HTML5的資料視覺化方法有哪些

現在在大資料的帶領下，資料視覺化越來越突出，能夠清楚的分析出自己想要的資料，這也是我們現在最求的資料視覺化方法，那麼實現HTML5的資料視覺化方法有哪些？這都是我們值得研究的東西，資料可以給我們帶來敏感的市場未來發展，同時也能夠實時分別不同資料效果。 HTM

基於資訊增益的離散化方法

相關推薦