1. 程式人生 > >pandas學習筆記4—factorize()

pandas學習筆記4—factorize()

pandas的factorize()理解

官網說明

pandas.factorize(values, sort=False, order=None, na_sentinel=-1, size_hint=None)
Encode input values as an enumerated type or categorical variable

個人理解

factorize函式可以將Series中的標稱型資料對映稱為一組數字,相同的標稱型對映為相同的數字。factorize函式的返回值是一個tuple(元組),元組中包含兩個元素。第一個元素是一個array,其中的元素是標稱型元素對映為的數字;第二個元素是Index型別,其中的元素是所有標稱型元素,沒有重複。

例項

import numpy as np
import pandas as pd
In [43]: df = pd.DataFrame({"id":[1,2,3,4,5,6,3,2], "raw_grade":['a', 'b', 'b',
    ...:  'a', 'a', 'e','c','a']})

In [44]: df
Out[44]:
   id raw_grade
0   1         a
1   2         b
2   3         b
3   4         a
4   5         a
5   6         e
6   3
c 7 2 a In [45]: x = pd.factorize(df.raw_grade) In [46]: x Out[46]: (array([0, 1, 1, 0, 0, 2, 3, 0], dtype=int64), Index(['a', 'b', 'e', 'c'], dtype='object')) #array中的元素其實是df.raw_grade的對應位置元素在Index中的下標。例如array第一個元素是0,表示df.raw_grade的第一個元素為Index的第0個元素。 In [47]: x[1] Out[47]: Index(['a'
, 'b', 'e', 'c'], dtype='object') In [48]: x[0] Out[48]: array([0, 1, 1, 0, 0, 2, 3, 0], dtype=int64) In [49]: type(x) Out[49]: tuple