Scikit-learn資料預處理分類變數編碼之欄位特徵編碼
阿新 • • 發佈:2021-01-15
技術標籤:機器學習
Scikit-learn資料預處理分類變數編碼之欄位特徵編碼
1 宣告
本文的資料來自網路,部分程式碼也有所參照,這裡做了註釋和延伸,旨在技術交流,如有冒犯之處請聯絡博主及時處理。
2 欄位特徵編碼簡介
字典特徵編碼主要是對字典型別的資料進行編碼,取key為列,value則對應列的值。比如NLP裡的詞頻,key為單詞、values為單詞出現次數。
注:這裡主要針對原始分類變數是字串的情況。
from sklearn.feature_extraction import DictVectorizer data_dict = [{"NLP": 2, "Deep Learning": 4}, {"Nosql": 4, "Machine learning ": 3}, {"Nosql": 1, "Deep Learning": 2}, {"NLP": 2, "Machine learning": 2}] dictvectorizer = DictVectorizer(sparse=False) features = dictvectorizer.fit_transform(data_dict) print(features) print(dictvectorizer.feature_names_)