pd.pd.get_dummies()獨熱編碼
阿新 • • 發佈:2020-07-20
pd.get_dummies()是實現獨熱編碼的方式
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False)[source]
引數說明:
data:需要進行獨熱編碼的資料,包括array,series,df[col]等等
prefix:字首,可以理解為獨熱編碼後生成的列名的字首
prefix_sep:分隔符,可以理解為獨熱編碼後生成的列名的分隔符
dummy_na:如果忽略False NaNs,則新增一列來指示NaNs
columns:要編碼的DataFrame中的列名稱。 如果列為None,則將轉換具有object或category dtype的所有列
sparse:是否應該使用SparseArray (True)或常規NumPy陣列(False)來支援用dummy編碼的列
drop_first:是否通過移除第一個級別來將k-1假人從k個類別級別中取出
import numpy as np import pandas as pd df=pd.DataFrame(['green','bule','red','bule','green'],columns=['color']) pd.get_dummies(df) pd.get_dummies(df,prefix ='cl') pd.get_dummies(df,prefix ='cl',prefix_sep = '/')
如果生成的資料要和df連線,可以時join