1. 程式人生 > 其它 >Scikit-learn資料預處理分類變數編碼之欄位特徵編碼

Scikit-learn資料預處理分類變數編碼之欄位特徵編碼

技術標籤:機器學習

Scikit-learn資料預處理分類變數編碼之欄位特徵編碼

1 宣告

本文的資料來自網路,部分程式碼也有所參照,這裡做了註釋和延伸,旨在技術交流,如有冒犯之處請聯絡博主及時處理。

2 欄位特徵編碼簡介

字典特徵編碼主要是對字典型別的資料進行編碼,取key為列,value則對應列的值。比如NLP裡的詞頻,key為單詞、values為單詞出現次數。

注:這裡主要針對原始分類變數是字串的情況。

from sklearn.feature_extraction import DictVectorizer
data_dict = [{"NLP": 2, "Deep Learning": 4},
{"Nosql": 4, "Machine learning ": 3},
{"Nosql": 1, "Deep Learning": 2},
{"NLP": 2, "Machine learning": 2}]
dictvectorizer = DictVectorizer(sparse=False)
features = dictvectorizer.fit_transform(data_dict)
print(features)
print(dictvectorizer.feature_names_)