1. 程式人生 > >資料特徵工程之量化裝箱

資料特徵工程之量化裝箱

量化裝箱

       假設這樣一個數據集,裡面某些屬性的值差異很大,小的可能是10以內,大至幾百幾千,這樣我們該如何去量化呢?直接將它們送入模型可行嗎?
       其實對於許多模型來說,跨越數個數量級的屬性數值是有問題的。屬性數值中較大的數值可能破壞包含歐式距離的模型演算法,如k-均值聚類,它使用相似性函式來測量資料點之間的相似性。k-均值使用資料點之間的歐幾里得距離。資料向量的屬性中較大元素的值將超過所有其他元素中的相似性,這可能會丟棄整個相似性度量。
        一種解決方案是通過量化計數來包含標量。換句話說,我們將計數分組到容器中,並且去掉實際的計數值。量化將連續數對映成離散數。我們可以把離散化的數字看作是代表強度度量的容器的有序的序列。
       為了量化資料,我們必須決定每一個箱子應該有多寬。解決方案分為固定寬度或自適應兩種型別。我們將給出每個型別的例子。

一、固定寬度裝箱