1. 程式人生 > 其它 >Scikit-learn資料預處理分類變數編碼之等級變數編碼

Scikit-learn資料預處理分類變數編碼之等級變數編碼

技術標籤:機器學習

Scikit-learn資料預處理分類變數編碼之等級變數編碼

1 宣告

本文的資料來自網路,部分程式碼也有所參照,這裡做了註釋和延伸,旨在技術交流,如有冒犯之處請聯絡博主及時處理。

2 等級分類變數編碼簡介

有序分類變數,又等級分類變數,比如學歷的專科、本科、研究生等,即變數間的差值有意義。這類編碼一般通過map進行對映。

注:這裡主要針對原始分類變數是字串的情況。

import pandas as pd
dataframe = pd.DataFrame({"Score": ["Low",
"Low",
"Medium",
"Medium",
"High",
"Barely More Than Medium"]})
scale_mapper = {"Low":1,
"Medium":2,
"Barely More Than Medium": 2.1,#3 這裡需要根據業務需求設定閾段
"High":4}
print(dataframe["Score"].replace(scale_mapper)) stlizer_data)