連續特徵離散化方法介紹
1. 離散化技術分類
連續屬性的離散化方法也可以被稱為分箱法,即將一組連續的值根據一定的規則分別放到其術語的集合中。
離散化技術可以根據如何對資料進行離散化加以分類,可以根據是否使用類資訊或根據進行方向(即自頂向下或自底向上)分類。
如果離散化過程使用類資訊,則稱它為監督離散化(superviseddiscretization);否則是非監督的(unsupervised)。
如果首先找出一點或幾個點(稱作分裂點或割點)來劃分整個屬性區間,然後在結果區間上遞迴地重複這一過程,則稱它為自頂向下離散化或分裂。自底向上離散化或合併正好相反,首先將所有的連續值看作可能的分裂點,通過合併相鄰域的值形成區間,然後遞迴地應用這一過程於結果區間。
2.無監督離散化與監督離散化
根據資料是否包含類別資訊可以把它們分成有監督的資料和無監督的資料。有監督的離散化要考慮類別資訊而無監督的離散化則不需要。
2.1 無監督離散化
假設屬性的取值空間為
(1) 等寬演算法
根據使用者指定的區間數目
(2) 等頻演算法
等頻演算法也是根據使用者自定義的區間數目,將屬性的值域劃分成
(3) K-means聚類演算法
首先由使用者指定離散化產生的區間數目
2.2 監督離散化
監督離散化就是事先
以下介紹的自下而上或者自上而下的分類方法都屬於監督離散化方法。
3. 齊次性的卡方檢驗
在介紹兩種基於卡方檢驗的離散化演算法之前,先來介紹一下齊次性的卡方檢驗。
資料:有
從每個總體中抽取一個隨機變數,記第