Pandas高階教程之:category資料型別

阿新 • • 發佈：2021-06-28

簡介
建立category
categories的操作
category排序
- 重排序
- 多列排序
比較操作
其他操作

簡介

Pandas中有一種特殊的資料型別叫做category。它表示的是一個類別，一般用在統計分類中，比如性別，血型，分類，級別等等。有點像java中的enum。

今天給大家詳細講解一下category的用法。

建立category

使用Series建立

在建立Series的同時新增dtype="category"就可以建立好category了。category分為兩部分，一部分是order，一部分是字面量：

In [1]: s = pd.Series(["a", "b", "c", "a"], dtype="category")

In [2]: s
Out[2]: 
0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

可以將DF中的Series轉換為category：

In [3]: df = pd.DataFrame({"A": ["a", "b", "c", "a"]})

In [4]: df["B"] = df["A"].astype("category")

In [5]: df["B"]
Out[32]: 
0    a
1    b
2    c
3    a
Name: B, dtype: category
Categories (3, object): [a, b, c]

可以建立好一個pandas.Categorical ，將其作為引數傳遞給Series：

In [10]: raw_cat = pd.Categorical(
   ....:     ["a", "b", "c", "a"], categories=["b", "c", "d"], ordered=False
   ....: )
   ....: 

In [11]: s = pd.Series(raw_cat)

In [12]: s
Out[12]: 
0    NaN
1      b
2      c
3    NaN
dtype: category
Categories (3, object): ['b', 'c', 'd']

使用DF建立

建立DataFrame的時候，也可以傳入 dtype="category"：

In [17]: df = pd.DataFrame({"A": list("abca"), "B": list("bccd")}, dtype="category")

In [18]: df.dtypes
Out[18]: 
A    category
B    category
dtype: object

DF中的A和B都是一個category:

In [19]: df["A"]
Out[19]: 
0    a
1    b
2    c
3    a
Name: A, dtype: category
Categories (3, object): ['a', 'b', 'c']

In [20]: df["B"]
Out[20]: 
0    b
1    c
2    c
3    d
Name: B, dtype: category
Categories (3, object): ['b', 'c', 'd']

或者使用df.astype("category")將DF中所有的Series轉換為category:

In [21]: df = pd.DataFrame({"A": list("abca"), "B": list("bccd")})

In [22]: df_cat = df.astype("category")

In [23]: df_cat.dtypes
Out[23]: 
A    category
B    category
dtype: object

建立控制

預設情況下傳入dtype='category' 創建出來的category使用的是預設值：

Categories是從資料中推斷出來的。
Categories是沒有大小順序的。

可以顯示建立CategoricalDtype來修改上面的兩個預設值：

In [26]: from pandas.api.types import CategoricalDtype

In [27]: s = pd.Series(["a", "b", "c", "a"])

In [28]: cat_type = CategoricalDtype(categories=["b", "c", "d"], ordered=True)

In [29]: s_cat = s.astype(cat_type)

In [30]: s_cat
Out[30]: 
0    NaN
1      b
2      c
3    NaN
dtype: category
Categories (3, object): ['b' < 'c' < 'd']

同樣的CategoricalDtype還可以用在DF中：

In [31]: from pandas.api.types import CategoricalDtype

In [32]: df = pd.DataFrame({"A": list("abca"), "B": list("bccd")})

In [33]: cat_type = CategoricalDtype(categories=list("abcd"), ordered=True)

In [34]: df_cat = df.astype(cat_type)

In [35]: df_cat["A"]
Out[35]: 
0    a
1    b
2    c
3    a
Name: A, dtype: category
Categories (4, object): ['a' < 'b' < 'c' < 'd']

In [36]: df_cat["B"]
Out[36]: 
0    b
1    c
2    c
3    d
Name: B, dtype: category
Categories (4, object): ['a' < 'b' < 'c' < 'd']

轉換為原始型別

使用Series.astype(original_dtype) 或者 np.asarray(categorical)可以將Category轉換為原始型別：

In [39]: s = pd.Series(["a", "b", "c", "a"])

In [40]: s
Out[40]: 
0    a
1    b
2    c
3    a
dtype: object

In [41]: s2 = s.astype("category")

In [42]: s2
Out[42]: 
0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [43]: s2.astype(str)
Out[43]: 
0    a
1    b
2    c
3    a
dtype: object

In [44]: np.asarray(s2)
Out[44]: array(['a', 'b', 'c', 'a'], dtype=object)

categories的操作

獲取category的屬性

Categorical資料有 categories 和 ordered 兩個屬性。可以通過s.cat.categories 和 s.cat.ordered來獲取：

In [57]: s = pd.Series(["a", "b", "c", "a"], dtype="category")

In [58]: s.cat.categories
Out[58]: Index(['a', 'b', 'c'], dtype='object')

In [59]: s.cat.ordered
Out[59]: False

重排category的順序：

In [60]: s = pd.Series(pd.Categorical(["a", "b", "c", "a"], categories=["c", "b", "a"]))

In [61]: s.cat.categories
Out[61]: Index(['c', 'b', 'a'], dtype='object')

In [62]: s.cat.ordered
Out[62]: False

重新命名categories

通過給s.cat.categories賦值可以重新命名categories:

In [67]: s = pd.Series(["a", "b", "c", "a"], dtype="category")

In [68]: s
Out[68]: 
0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [69]: s.cat.categories = ["Group %s" % g for g in s.cat.categories]

In [70]: s
Out[70]: 
0    Group a
1    Group b
2    Group c
3    Group a
dtype: category
Categories (3, object): ['Group a', 'Group b', 'Group c']

使用rename_categories可以達到同樣的效果：

In [71]: s = s.cat.rename_categories([1, 2, 3])

In [72]: s
Out[72]: 
0    1
1    2
2    3
3    1
dtype: category
Categories (3, int64): [1, 2, 3]

或者使用字典物件：

# You can also pass a dict-like object to map the renaming
In [73]: s = s.cat.rename_categories({1: "x", 2: "y", 3: "z"})

In [74]: s
Out[74]: 
0    x
1    y
2    z
3    x
dtype: category
Categories (3, object): ['x', 'y', 'z']

使用add_categories新增category

可以使用add_categories來新增category:

In [77]: s = s.cat.add_categories([4])

In [78]: s.cat.categories
Out[78]: Index(['x', 'y', 'z', 4], dtype='object')

In [79]: s
Out[79]: 
0    x
1    y
2    z
3    x
dtype: category
Categories (4, object): ['x', 'y', 'z', 4]

使用remove_categories刪除category

In [80]: s = s.cat.remove_categories([4])

In [81]: s
Out[81]: 
0    x
1    y
2    z
3    x
dtype: category
Categories (3, object): ['x', 'y', 'z']

刪除未使用的cagtegory

In [82]: s = pd.Series(pd.Categorical(["a", "b", "a"], categories=["a", "b", "c", "d"]))

In [83]: s
Out[83]: 
0    a
1    b
2    a
dtype: category
Categories (4, object): ['a', 'b', 'c', 'd']

In [84]: s.cat.remove_unused_categories()
Out[84]: 
0    a
1    b
2    a
dtype: category
Categories (2, object): ['a', 'b']

重置cagtegory

使用set_categories()可以同時進行新增和刪除category操作：

In [85]: s = pd.Series(["one", "two", "four", "-"], dtype="category")

In [86]: s
Out[86]: 
0     one
1     two
2    four
3       -
dtype: category
Categories (4, object): ['-', 'four', 'one', 'two']

In [87]: s = s.cat.set_categories(["one", "two", "three", "four"])

In [88]: s
Out[88]: 
0     one
1     two
2    four
3     NaN
dtype: category
Categories (4, object): ['one', 'two', 'three', 'four']

category排序

如果category建立的時候帶有 ordered=True ，那麼可以對其進行排序操作：

In [91]: s = pd.Series(["a", "b", "c", "a"]).astype(CategoricalDtype(ordered=True))

In [92]: s.sort_values(inplace=True)

In [93]: s
Out[93]: 
0    a
3    a
1    b
2    c
dtype: category
Categories (3, object): ['a' < 'b' < 'c']

In [94]: s.min(), s.max()
Out[94]: ('a', 'c')

可以使用 as_ordered() 或者 as_unordered() 來強制排序或者不排序：

In [95]: s.cat.as_ordered()
Out[95]: 
0    a
3    a
1    b
2    c
dtype: category
Categories (3, object): ['a' < 'b' < 'c']

In [96]: s.cat.as_unordered()
Out[96]: 
0    a
3    a
1    b
2    c
dtype: category
Categories (3, object): ['a', 'b', 'c']

重排序

使用Categorical.reorder_categories() 可以對現有的category進行重排序：

In [103]: s = pd.Series([1, 2, 3, 1], dtype="category")

In [104]: s = s.cat.reorder_categories([2, 3, 1], ordered=True)

In [105]: s
Out[105]: 
0    1
1    2
2    3
3    1
dtype: category
Categories (3, int64): [2 < 3 < 1]

多列排序

sort_values 支援多列進行排序：

In [109]: dfs = pd.DataFrame(
   .....:     {
   .....:         "A": pd.Categorical(
   .....:             list("bbeebbaa"),
   .....:             categories=["e", "a", "b"],
   .....:             ordered=True,
   .....:         ),
   .....:         "B": [1, 2, 1, 2, 2, 1, 2, 1],
   .....:     }
   .....: )
   .....: 

In [110]: dfs.sort_values(by=["A", "B"])
Out[110]: 
   A  B
2  e  1
3  e  2
7  a  1
6  a  2
0  b  1
5  b  1
1  b  2
4  b  2

比較操作

如果建立的時候設定了ordered==True ，那麼category之間就可以進行比較操作。支援 ==, !=, >, >=, <, 和 <=這些操作符。

In [113]: cat = pd.Series([1, 2, 3]).astype(CategoricalDtype([3, 2, 1], ordered=True))

In [114]: cat_base = pd.Series([2, 2, 2]).astype(CategoricalDtype([3, 2, 1], ordered=True))

In [115]: cat_base2 = pd.Series([2, 2, 2]).astype(CategoricalDtype(ordered=True))

In [119]: cat > cat_base
Out[119]: 
0     True
1    False
2    False
dtype: bool

In [120]: cat > 2
Out[120]: 
0     True
1    False
2    False
dtype: bool

其他操作

Cagetory本質上來說還是一個Series，所以Series的操作category基本上都可以使用，比如： Series.min(), Series.max() 和 Series.mode()。

value_counts：

In [131]: s = pd.Series(pd.Categorical(["a", "b", "c", "c"], categories=["c", "a", "b", "d"]))

In [132]: s.value_counts()
Out[132]: 
c    2
a    1
b    1
d    0
dtype: int64

DataFrame.sum()：

In [133]: columns = pd.Categorical(
   .....:     ["One", "One", "Two"], categories=["One", "Two", "Three"], ordered=True
   .....: )
   .....: 

In [134]: df = pd.DataFrame(
   .....:     data=[[1, 2, 3], [4, 5, 6]],
   .....:     columns=pd.MultiIndex.from_arrays([["A", "B", "B"], columns]),
   .....: )
   .....: 

In [135]: df.sum(axis=1, level=1)
Out[135]: 
   One  Two  Three
0    3    3      0
1    9    6      0

Groupby：

In [136]: cats = pd.Categorical(
   .....:     ["a", "b", "b", "b", "c", "c", "c"], categories=["a", "b", "c", "d"]
   .....: )
   .....: 

In [137]: df = pd.DataFrame({"cats": cats, "values": [1, 2, 2, 2, 3, 4, 5]})

In [138]: df.groupby("cats").mean()
Out[138]: 
      values
cats        
a        1.0
b        2.0
c        4.0
d        NaN

In [139]: cats2 = pd.Categorical(["a", "a", "b", "b"], categories=["a", "b", "c"])

In [140]: df2 = pd.DataFrame(
   .....:     {
   .....:         "cats": cats2,
   .....:         "B": ["c", "d", "c", "d"],
   .....:         "values": [1, 2, 3, 4],
   .....:     }
   .....: )
   .....: 

In [141]: df2.groupby(["cats", "B"]).mean()
Out[141]: 
        values
cats B        
a    c     1.0
     d     2.0
b    c     3.0
     d     4.0
c    c     NaN
     d     NaN

Pivot tables：

In [142]: raw_cat = pd.Categorical(["a", "a", "b", "b"], categories=["a", "b", "c"])

In [143]: df = pd.DataFrame({"A": raw_cat, "B": ["c", "d", "c", "d"], "values": [1, 2, 3, 4]})

In [144]: pd.pivot_table(df, values="values", index=["A", "B"])
Out[144]: 
     values
A B        
a c       1
  d       2
b c       3
  d       4

本文已收錄於 http://www.flydean.com/08-python-pandas-category/

最通俗的解讀，最深刻的乾貨，最簡潔的教程，眾多你不知道的小技巧等你來發現！

歡迎關注我的公眾號:「程式那些事」,懂技術，更懂你！

Pandas高階教程之:category資料型別

目錄簡介建立category使用Series建立使用DF建立建立控制轉換為原始型別categories的操作獲取category的屬性重新命名categories使用add_categories新增category使用remove_categories刪除category刪除未使用的cagtego

Pandas高階教程之:稀疏資料結構

目錄簡介Spare data的例子SparseArraySparseDtypeSparse的屬性Sparse的計算SparseSeries 和 SparseDataFrame

Pandas高階教程之:處理text資料

目錄簡介建立text的DFString 的方法columns的String操作分割和替換StringString的連線使用 .str來indexextractextractallcontains 和 matchString方法總結

Pandas高階教程之:處理缺失資料

目錄簡介NaN的例子整數型別的缺失值Datetimes 型別的缺失值None 和np.nan 的轉換缺失值的計算使用fillna填充NaN資料使用dropna刪除包含NA的資料插值interpolation使用replace替換值

Pandas高階教程之:時間處理

目錄簡介時間分類TimestampDatetimeIndexdate_range 和 bdate_rangeorigin格式化PeriodDateOffset作為index切片和完全匹配時間序列的操作Shifting頻率轉換Resampling 重新取樣

MySQL操作之JSON資料型別操作詳解

上一篇文章我們介紹了mysql資料儲存過程引數例項詳解，今天我們看看MySQL操作之JSON資料型別的相關內容。

Python全棧之列表資料型別詳解

前言列表(list)同字串一樣都是有序的，因為他們都可以通過切片和索引進行資料訪問，且列表是可變的。

ES6學習筆記之新增資料型別例項解析

本文例項講述了ES6學習筆記之新增資料型別。分享給大家供大家參考，具體如下：

Python 分散式快取之Reids資料型別操作

目錄 1、Redis API 2、String 操作 3、Hash 操作 4、List 操作 1、Redis API 1.操作模式 redis-py提供兩個類Redis和StrictRedis用於實現Redis的命令，StrictRedis用於實現大部分官方的命令，並使用官方的語法和命令

Python 分散式快取之Reids資料型別操作詳解

1、Redis API 1.安裝redis模組 $ pip3.8 install redis 2.使用redis模組 import redis # 連線redis的ip地址/主機名，port，password=None

SpringBoot 入門教程之引入資料傳輸層的方法

我們現在操作的資料直接就使用了實體類，假如我們輸出的使用者物件需要包含使用者擁有的許可權列表，那麼我們怎麼封裝呢？

es6之symbol資料型別

1、六大資料型別　　String字串型別、Number數字型別、Object物件型別、Boolean布林值型別、Null空值、Undefined 未定義

Python基礎之六大資料型別

# ### Number ( int float bool complex) # int 整型 (正整數 0負整數) intvar = 123 print(intvar) # type 獲取值的型別

資料結構之抽象資料型別

技術標籤：資料結構資料結構引言：在C語言中，按照取值的不同，資料型別可以分為兩類：

c字串轉int型別_Python合集之Python資料型別的轉換

技術標籤：c字串轉int型別在上一節的合集中，我們瞭解了Python資料型別中的字串及布林型別的相關知識，本節我們將進一步瞭解一下Python中關於資料型別的資料轉換相關的知識。

java 查詢基本型別包裝類_Java探祕之基本資料型別和包裝類（int,Integer）

技術標籤：java 查詢基本型別包裝類 java有八種基本資料型別分別是，char、shoat、int、float、double、long、byte、boolean。而它們對應的包裝類也有，Character、Shoat、Integer、Float、Double、Long、Byt

python 定義空字串_Python合集之Python資料型別（二）

技術標籤：python 定義空字串在上一節的合集中，我們瞭解了Python資料型別中的數值型別的相關知識，本節我們將進一步瞭解一下Python中關於資料型別中的字串及布林型別相關的知識。

[JavaSE學習之旅]資料型別擴充套件

資料型別拓展各個型別所佔位元組大小參考了這篇文章 byte: 1位元組預設0 範圍: -128 – 127short: 2位元組預設0 範圍:-32768 – 32767char: 2位元組預設’\\u0000’ 範圍: ‘\\u0000’ – ‘\\uffff’int

Python基礎之基本資料型別

六個標準資料型別不可變資料：Number，String，Tuple（元組）可變資料：List（列表），Dictionary（字典），Set（集合）

第七章 python語法入門之基本資料型別

一、引入我們學習變數是為了讓計算機能夠像人一樣去記憶事物的某種狀態，而變數的值就是用來儲存事物狀態的，很明顯事物的狀態分成不同種類的（比如人的年齡，身高，職位，工資等等），所以變數值也應該有不同的型

Pandas高階教程之:category資料型別

簡介

建立category

使用Series建立

使用DF建立

建立控制

轉換為原始型別

categories的操作

獲取category的屬性

重新命名categories

使用add_categories新增category

使用remove_categories刪除category

刪除未使用的cagtegory

重置cagtegory

category排序

重排序

多列排序

比較操作

其他操作

相關推薦