Scikit-learn資料預處理分類變數編碼之等級變數編碼
阿新 • • 發佈:2021-01-15
技術標籤:機器學習
Scikit-learn資料預處理分類變數編碼之等級變數編碼
1 宣告
本文的資料來自網路,部分程式碼也有所參照,這裡做了註釋和延伸,旨在技術交流,如有冒犯之處請聯絡博主及時處理。
2 等級分類變數編碼簡介
有序分類變數,又等級分類變數,比如學歷的專科、本科、研究生等,即變數間的差值有意義。這類編碼一般通過map進行對映。
注:這裡主要針對原始分類變數是字串的情況。
import pandas as pd dataframe = pd.DataFrame({"Score": ["Low", "Low", "Medium", "Medium", "High", "Barely More Than Medium"]}) scale_mapper = {"Low":1, "Medium":2, "Barely More Than Medium": 2.1,#3 這裡需要根據業務需求設定閾段 "High":4} print(dataframe["Score"].replace(scale_mapper)) stlizer_data)