1. 程式人生 > 實用技巧 >pd.pd.get_dummies()獨熱編碼

pd.pd.get_dummies()獨熱編碼

pd.get_dummies()是實現獨熱編碼的方式

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False)[source]

引數說明:

data:需要進行獨熱編碼的資料,包括array,series,df[col]等等

prefix:字首,可以理解為獨熱編碼後生成的列名的字首

prefix_sep:分隔符,可以理解為獨熱編碼後生成的列名的分隔符

dummy_na:如果忽略False NaNs,則新增一列來指示NaNs

columns:要編碼的DataFrame中的列名稱。 如果列為None,則將轉換具有object或category dtype的所有列

sparse:是否應該使用SparseArray (True)或常規NumPy陣列(False)來支援用dummy編碼的列

drop_first:是否通過移除第一個級別來將k-1假人從k個類別級別中取出

import numpy as np
import pandas as pd
df=pd.DataFrame(['green','bule','red','bule','green'],columns=['color'])
pd.get_dummies(df)
pd.get_dummies(df,prefix ='cl')
pd.get_dummies(df,prefix ='cl',prefix_sep = '
/')

如果生成的資料要和df連線,可以時join