連續資料離散化

阿新 • • 發佈：2019-01-28

#資料規範化
import pandas as pd

datafile = 'eeeee/chapter4/demo/data/discretization_data.xls' #引數初始化
data = pd.read_excel(datafile) #讀取資料
data = data[u'肝氣鬱結證型係數'].copy()
k = 4

#等寬離散化
d1 = pd.cut(data, k, labels = range(k)) #，各個類比依次命名為0,1,2,3

#等頻率離散化
w = [1.0*i/k for i in range(k+1)]
w = data.describe(percentiles = w)[4 
:4+k+1] #使用describe函式自動計算分位數
w[0] = w[0]*(1-1e-10)
d2 = pd.cut(data, w, labels = range(k))

#聚類離散化
from sklearn.cluster import KMeans #引入KMeans
kmodel = KMeans(n_clusters = k, n_jobs = 4) #建立模型，n_jobs是並行數，一般等於CPU數較好
kmodel.fit(data.reshape((len(data), 1))) #訓練模型
c = pd.DataFrame(kmodel.cluster_centers_).sort(0 
) #輸出聚類中心，並且排序（預設是隨機序的）
w = pd.rolling_mean(c, 2).iloc[1:] #相鄰兩項求中點，作為邊界點
w = [0] + list(w[0]) + [data.max()] #把首末邊界點加上
d3 = pd.cut(data, w, labels = range(k))

def cluster_plot(d, k): #自定義作圖函式來顯示聚類結果
  import matplotlib.pyplot as plt
  plt.rcParams['font.sans-serif'] = ['SimHei'] #用來正常顯示中文標籤
  plt.rcParams['axes.unicode_minus' 
] = False #用來正常顯示負號

  plt.figure(figsize = (8, 3))
  for j in range(0, k):
    plt.plot(data[d==j], [j for i in d[d==j]], 'o')

  plt.ylim(-0.5, k-0.5)
  return plt

cluster_plot(d1, k).show()
cluster_plot(d2, k).show()
cluster_plot(d3, k).show()

Python連續資料離散化處理和pandas.cut函式用法

連續資料離散化場景：資料分析和統計的預處理階段，經常的會碰到年齡、消費等連續型數值，我們希望將數值進行離散化分段統計，提高資料區分度，那麼下面介紹一個簡單使用的pandas中的 cut() 方法函式用法： **cut(series, bins, right=True, lab

連續資料離散化

#資料規範化 import pandas as pd datafile = 'eeeee/chapter4/demo/data/discretization_data.xls' #引數初始化 data

python大資料分析——連續屬性離散化

1.過程連續屬性的離散化就是在數值的取值範圍內設定若干點離散的劃分點，劃分區間，然後用不同的符號去表示落在每個子區間的資料值。離散化涉及兩個任務，確定分類數以及將連續屬性值對映到這些分類值。 2.方法（1）等寬法將屬性的值域分成具有相同寬度的區間；（2）等頻法

資料預處理-資料變換-連續屬性離散化實現：pandas(0.23)+sklearn(0.19.1)+matplotlib(2.2.2)

程式碼來源：Python資料分析與挖掘實戰原始碼有如下錯誤： line22: 原: data.reshape 修改後: data.values.reshape line23: 原: s

python資料預處理：資料離散化

何為離散化：一些資料探勘演算法中，要求資料是分類屬性形式。因此常常需要將連續屬性的資料通過斷點進行劃分最後歸屬到不同的分類，即離散化。為什麼要離散化：調高計算效率分類模型計算需要給予距離計算模型（k均值、協同過濾）中降低異常資料對模型的影響

Python資料分析與挖掘學習筆記（5）資料規範化與資料離散化實戰

一、相關理論： 1、資料規範化的常見方法：（1）離差標準化（最小-最大標準化）--消除量綱（單位）影響以及變異大小因素的影響。（最小-最大標準化） x1=（x-min）/（max-min）（2）標準差標準化--消除單

利用pandas對資料離散化

在實際的工作場景中，我們經常會遇到這樣一種場景：想要將某些欄位進行離散化即分桶，簡單來說就是講年齡分成幾個區間。pandas中的cut方法能很好地完成此操作。 #匯入相關庫，並建立資料集 import pandas as pd import numpy as np in

python資料離散化

#資料規範化 import pandas as pd datafile = 'C:/Users/Administrator/Desktop/demo/data/discretization_data.xls' #引數初始化 data = pd.read_excel(data

機器學習小組知識點27：資料預處理之資料離散化（Data Discretization）

離散化和概念分層產生通過將屬性域劃分為區間，離散化技術可以用來減少給定連續屬性值的個數。區間的標號可以替代實際的資料值。如果使用基於判定樹的分類挖掘方法，減少屬性值的數量特別有好處。通常，這種方法是遞迴的，大量的時間花在每一步的資料排序上。因此，待排序的不同

資料離散化模板（用STL實現）

最近在練習一道提的時候，資料比較大，總過不了，後來瞭解得需要用離散化，對視拋棄沒有用到資料只存取有用的資料，並且用簡單好記的東西去儲存，例如：有些資料本身很大，自身無法作為陣列的下標儲存對

weka中對數值型資料離散化

連續數值離散化大致可分為：1）有監督（supervised）和2）無監督（unsupervised）兩類。有監督方法可通過設定類別相關目標函式如：分類錯誤率，熵增益等指標結合二叉樹演算法對特徵空間進行劃分。這類方法的核心思想就是是每類樣本儘量分佈在特徵空間中的不同子劃分中

python實現資料離散化

資料探勘中有些演算法，特別是分類演算法，只能在離散型資料上進行分析，然而大部分資料集常常是連續值和離散值並存的。因此，為了使這類演算法發揮作用，需要對資料集中連續型屬性進行離散化操作。那麼，如何對連

連續特徵離散化方法介紹

1. 離散化技術分類連續屬性的離散化方法也可以被稱為分箱法，即將一組連續的值根據一定的規則分別放到其術語的集合中。離散化技術可以根據如何對資料進行離散化加以分類，可以根據是否使用類資訊或根據進行方向(即自頂向下或自底向上)分類。如果離散化過程使用類

資料預處理之資料離散化

資料離散化的意義資料離散化是指將連續的資料進行分段，使其變為一段段離散化的區間。分段的原則有基於等距離、等頻率或優化的方法。資料離散化的原因主要有以下幾點： 1**.演算法需要：** 比如決策樹、樸素貝葉斯等演算法，都是基於離散型的資料展開的。如果要使用

淺談資料離散化

最近做了一些需要離散資料的題目，比如URAL 1019 以及POJ 2528等，由於資料較大，如果用傳統的方法建立對應的資料結構消耗的記憶體過大。由於以前沒有怎麼接觸過需要離散化的題目，於是就通過自己最近的做題經驗以及網上的部分資料，整理並講解了常用的離散資料的方法。

R語言資料離散化使funModeling變得容易

tl; dr：將數值變數轉換為分類，如下圖所示。閱讀時間〜6分鐘開始吧！該軟體包funModeling（從版本> 1.6.6）引入了兩個功能discretize_get_bins，它們discretize_df協同工作以幫助我們完成離

連續系統離散化的方法

http://www.docin.com/DocinViewer-1404447028-144.swf 5.2.1 連續系統離散化方法 1、反向差分變換法對於給定的（5.

連續特徵離散化的方法

在工業界，很少直接將連續值作為邏輯迴歸模型的特徵輸入，而是將連續特徵離散化為一系列0、1特徵交給邏輯迴歸模型，這樣做的優勢有以下幾點： 0. 離散特徵的增加和減少都很容易，易於模型的快速迭代； 1. 稀疏向量內積乘法運算速度快，計算結果方便儲存，容易擴充套件； 2. 離散化後的特徵對異常資料有很強的魯棒性：

連續特徵離散化和歸一化

RT，尤其在logistic regression上，需要把一些連續特徵進行離散化處理。離散化除了一些計算方面等等好處，還可以引入非線性特性，也可以很方便的做cross-feature。連續特徵離散化處理有什麼好的方法，有時候為什麼不直接歸一化？這裡主要說明監督的變換

特徵離散化，特徵交叉，連續特徵離散化

一．網際網路廣告特徵工程可以看到，其中的logistic regression模型是比較簡單而且實用的，其訓練方法雖然有多種，但目標是一致的，訓練結果對效果的影響是比較大，但是訓練方法本身，對效果的影響卻不是決定性的，因為訓練的是每個特徵的權重，權重細微的差別不會引起ctr的巨大變化。在訓練方法

連續資料離散化

相關推薦