1. 程式人生 > >連續特徵離散化方法介紹

連續特徵離散化方法介紹

1. 離散化技術分類

連續屬性的離散化方法也可以被稱為分箱法,即將一組連續的值根據一定的規則分別放到其術語的集合中。 
離散化技術可以根據如何對資料進行離散化加以分類,可以根據是否使用類資訊或根據進行方向(即自頂向下或自底向上)分類。 
如果離散化過程使用類資訊,則稱它為監督離散化(superviseddiscretization);否則是非監督的(unsupervised)。 
如果首先找出一點或幾個點(稱作分裂點或割點)來劃分整個屬性區間,然後在結果區間上遞迴地重複這一過程,則稱它為自頂向下離散化或分裂。自底向上離散化或合併正好相反,首先將所有的連續值看作可能的分裂點,通過合併相鄰域的值形成區間,然後遞迴地應用這一過程於結果區間。

2.無監督離散化與監督離散化

根據資料是否包含類別資訊可以把它們分成有監督的資料和無監督的資料。有監督的離散化要考慮類別資訊而無監督的離散化則不需要。

2.1 無監督離散化

假設屬性的取值空間為X={X1,X2,,Xn},離散化之後的類標號是Y={Y1,Y2,,Ym},則無監督離散化的情況就是X已知而Y未知。以下介紹幾種常用的無監督離散化方法: 
(1) 等寬演算法 
根據使用者指定的區間數目K,將屬性的值域[XminXmax]劃分成K個區間,並使每個區間的寬度相等,即都等於XmaxXminK。缺點是容易受離群點的影響而使效能不佳。 
(2) 等頻演算法

 
等頻演算法也是根據使用者自定義的區間數目,將屬性的值域劃分成K個小區間。他要求落在每個區間的物件數目相等。譬如,屬性的取值區間內共有M個點,則等頻區間所劃分的K個小區域內,每個區域含有MK個點。 
(3) K-means聚類演算法 
首先由使用者指定離散化產生的區間數目K,K-均值演算法首先從資料集中隨機找出K個數據作為K個初始區間的重心;然後,根據這些重心的歐式距離,對所有的物件聚類:如果資料x距重心Gi最近,則將x劃歸Gi所代表的那個區間;然後重新計算各區間的重心,並利用新的重心重新聚類所有樣本。逐步迴圈,直到所有區間的重心不再隨演算法迴圈而改變為止。

2.2 監督離散化

監督離散化就是事先X

Y均為已知,然後找到某個函式,利用X值對Y值做預測。可以建立迴歸或者分類模型。 
以下介紹的自下而上或者自上而下的分類方法都屬於監督離散化方法。

3. 齊次性的卡方檢驗

在介紹兩種基於卡方檢驗的離散化演算法之前,先來介紹一下齊次性的卡方檢驗。 
資料:有r個總體。 
從每個總體中抽取一個隨機變數,記第i個樣本含有的觀測數是ni,1