Pandas 用法匯總

阿新 • • 發佈：2019-05-05

fill 描述都沒有 date 意義 res 寫入 pla 數據篩選

一、生成數據表

1、首先導入pandas 庫，一般會用到 numpy 庫，所以我們先導入備用：

import numpy as np

import pandas as pd

2、生成 CSV 或者 xlsx 文件：

df = pd.DataFrame(pd.read_csv( ‘name.csv‘, header = 1))

df = pd.DataFrame(pd.read_excel(‘name.xlsx‘))

3、用 pandas 創建數據表：

import numpy as np
import pandas as pd

df = pd.DataFrame({" 
id":[1001,1002,1003,1004,1005,1006], 
 "date":pd.date_range(‘20130102‘, periods=6),
  "city":[‘Beijing ‘, ‘SH‘, ‘ guangzhou ‘, ‘Shenzhen‘, ‘shanghai‘, ‘BEIJING ‘],
 "age":[23,44,54,32,34,32],
 "category":[‘100-A‘,‘100-B‘,‘110-A‘,‘110-C‘,‘210-A‘,‘130-F‘],
  "price":[1200,np.nan,2133,5433,np.nan,4432]},
  columns =[‘id‘ 
,‘date‘,‘city‘,‘category‘,‘age‘,‘price‘])

print(df)


       id          date    city    category    age    price
0    1001    2013-01-02    Beijing    100-A    23    1200.0
1    1002    2013-01-03    SH         100-B    44    NaN
2    1003    2013-01-04    guangzhou  110-A    54    2133.0
3    1004    2013-01-05    Shenzhen   110 
-C    32    5433.0
4    1005    2013-01-06    shanghai   210-A    34    NaN
5    1006    2013-01-07    BEIJING    130-F    32    4432.0

二、數據表信息查看

1、維度查看：

df.shape

( 6, 6 )

2、數據表基本信息（維度，列名稱，數據格式，所占空間）：
df.info()

<class ‘pandas.core.frame.DataFrame‘>
RangeIndex: 6 entries, 0 to 5
Data columns (total 6 columns):
id          6 non-null int64
date        6 non-null datetime64[ns]
city        6 non-null object
category    6 non-null object
age         6 non-null int64
price       4 non-null float64
dtypes: datetime64[ns](1), float64(1), int64(2), object(2)
memory usage: 368.0+ bytes

3、每一列的數據格式：

df.dtypes

id                   int64
date        datetime64[ns]
city                object
category            object
age                  int64
price              float64
dtype: object

4、某一列格式：
df[ ‘id‘ ].dtype

dtype(‘int64‘)

5、空值：
df.isnull()

    id    date    city    category    age    price
0    False    False    False    False    False    False
1    False    False    False    False    False    True
2    False    False    False    False    False    False
3    False    False    False    False    False    False
4    False    False    False    False    False    True
5    False    False    False    False    False    False

6、查看某一列的空值：

df[‘price‘].isnull()

0    False
1     True
2    False
3    False
4     True
5    False
Name: price, dtype: bool

7、查看某一列的唯一值：

df[‘id‘].unique()

array([1001, 1002, 1003, 1004, 1005, 1006], dtype=int64)

8、查看數據表的值：
df.values

array([[1001, Timestamp(‘2013-01-02 00:00:00‘), ‘Beijing ‘, ‘100-A‘, 23,
        1200.0],
       [1002, Timestamp(‘2013-01-03 00:00:00‘), ‘SH‘, ‘100-B‘, 44, nan],
       [1003, Timestamp(‘2013-01-04 00:00:00‘), ‘ guangzhou ‘, ‘110-A‘,
        54, 2133.0],
       [1004, Timestamp(‘2013-01-05 00:00:00‘), ‘Shenzhen‘, ‘110-C‘, 32,
        5433.0],
       [1005, Timestamp(‘2013-01-06 00:00:00‘), ‘shanghai‘, ‘210-A‘, 34,
        nan],
       [1006, Timestamp(‘2013-01-07 00:00:00‘), ‘BEIJING ‘, ‘130-F‘, 32,
        4432.0]], dtype=object)

9、查看列名稱：

df.columns

Index([‘id‘, ‘date‘, ‘city‘, ‘category‘, ‘age‘, ‘price‘], dtype=‘object‘)

10、查看前10列數據、後10行數據：
df.head() // 默認前10行數據

       id          date    city    category    age    price
0    1001    2013-01-02    Beijing     100-A    23    1200.0
1    1002    2013-01-03    SH          100-B    44    NaN
2    1003    2013-01-04    guangzhou   110-A    54    2133.0
3    1004    2013-01-05    Shenzhen    110-C    32    5433.0
4    1005    2013-01-06    shanghai    210-A    34    NaN

df.tail() // 默認後10行數據

       id          date    city    category    age    price
1    1002    2013-01-03    SH          100-B    44    NaN
2    1003    2013-01-04    guangzhou   110-A    54    2133.0
3    1004    2013-01-05    Shenzhen    110-C    32    5433.0
4    1005    2013-01-06    shanghai    210-A    34    NaN
5    1006    2013-01-07    BEIJING     130-F    32    4432.0

三、數據表清洗

1、用數字 0 填充空值：

df.fillna(value = 0)

       id          date    city    category    age    price
0    1001    2013-01-02    Beijing     100-A    23    1200.0
1    1002    2013-01-03    SH          100-B    44    0.0
2    1003    2013-01-04    guangzhou   110-A    54    2133.0
3    1004    2013-01-05    Shenzhen    110-C    32    5433.0
4    1005    2013-01-06    shanghai    210-A    34    0.0
5    1006    2013-01-07    BEIJING     130-F    32    4432.0

2、使用列 price 的均值對 NA 進行填充：

df[ ‘price‘ ].fillna(df[‘price‘].mean())

0    1200.0
1    3299.5
2    2133.0
3    5433.0
4    3299.5
5    4432.0
Name: price, dtype: float64

3、清楚 city 字段的字符空格：

df[ ‘city‘ ] = df[ ‘city‘ ].map(str.strip)

4、大小寫轉換：

df[ ‘city‘ ] = df[ ‘city‘ ].str.lower()

       id           date    city    category    age    price
0    1001    2013-01-02    beijing      100-A    23    1200.0
1    1002    2013-01-03    sh           100-B    44    NaN
2    1003    2013-01-04    guangzhou    110-A    54    2133.0
3    1004    2013-01-05    shenzhen     110-C    32    5433.0
4    1005    2013-01-06    shanghai     210-A    34    NaN
5    1006    2013-01-07    beijing      130-F    32    4432.0

5、更改數據格式：

df[ ‘price‘ ].astype( ‘int‘ )

6、更改列名稱：

df.rename(columns = { ‘category‘ : ‘category-size‘ })

       id          date    city    category-size    age    price
0    1001    2013-01-02    Beijing    100-A    23    1200.0
1    1002    2013-01-03    SH         100-B    44    NaN
2    1003    2013-01-04    guangzhou  110-A    54    2133.0
3    1004    2013-01-05    Shenzhen   110-C    32    5433.0
4    1005    2013-01-06    shanghai   210-A    34    NaN
5    1006    2013-01-07    BEIJING    130-F    32    4432.0

7、刪除後出現的重復值:

df[ ‘city‘ ].drop_duplicates()

0       Beijing 
1             SH
2     guangzhou 
3       Shenzhen
4       shanghai
5       BEIJING 
Name: city, dtype: object

8、刪除先出現的重復值：

df[ ‘city‘ ].drop_duplicates(keep = ‘last‘ )

0       Beijing 
1             SH
2     guangzhou 
3       Shenzhen
4       shanghai
5       BEIJING 
Name: city, dtype: object

9、數據替換：
df[ ‘city‘ ].replace( ‘sh‘ , ‘shanghai‘ )

四、數據預處理

df1=pd.DataFrame({

"id":[1001,1002,1003,1004,1005,1006,1007,1008], 
"gender":[‘male‘,‘female‘,‘male‘,‘female‘,‘male‘,‘female‘,‘male‘,‘female‘],
"pay":[‘Y‘,‘N‘,‘Y‘,‘Y‘,‘N‘,‘Y‘,‘N‘,‘Y‘,],
"m-point":[10,12,20,40,40,40,30,20]})

1、數據表合並：
1.1merge

df_inner = pd.merge(df, df1, how = ‘inner‘) # 匹配合並 交集

       id          date    city    category    age    price    gender    pay   m-point
0    1001    2013-01-02    Beijing     100-A    23    1200.0    male      Y    10
1    1002    2013-01-03    SH          100-B    44    NaN       female    N    12
2    1003    2013-01-04    guangzhou   110-A    54    2133.0    male      Y    20
3    1004    2013-01-05    Shenzhen    110-C    32    5433.0    female    Y    40
4    1005    2013-01-06    shanghai    210-A    34    NaN       male      N    40
5    1006    2013-01-07    BEIJING     130-F    32    4432.0    female    Y    40

df_left = pd.merge(df, df1, how = ‘left‘)


       id          date    city    category    age    price    gender    pay   m-point
0    1001    2013-01-02    Beijing    100-A    23    1200.0    male       Y    10
1    1002    2013-01-03    SH         100-B    44    NaN       female     N    12
2    1003    2013-01-04    guangzhou  110-A    54    2133.0    male       Y    20
3    1004    2013-01-05    Shenzhen   110-C    32    5433.0    female     Y    40
4    1005    2013-01-06    shanghai   210-A    34    NaN       male       N    40
5    1006    2013-01-07    BEIJING    130-F    32    4432.0    female     Y    40

 
df_right = pd.merge(df, df1, how = ‘right‘)
df_outer = pd.merge(df, df1, how = ‘outer‘) # 並集

輸出結構同上

1.2 append

result = df1.append(df2)

1.3 join

reault = left.join( right, on=‘key‘ )

1.4 concat

pd.concat(
　　　　　　objs, 
　　　　　　axis=0, 
　　　　　　join = ‘outer‘, 
　　　　　　join_axes = None, 
　　　　　　ignore_index = False, 
　　　　　　keys = None, 
　　　　　　levels = None, 
　　　　　　names=None, 
　　　　　　verify_integrity=false, 
　　　　　　copy = True)

objs；一個序列系列、綜合或面板對象的映射。如果字典中傳遞，將作為鍵參數，使用序的鍵，除非它傳遞，在這種情況下的值將會選擇（見上下文）。任何沒有任何反對將默默的的丟棄，除非他媽嗯都沒有在這種情況下將引發 VslueError。

axis：{0,1,2，...}，默認值為0，要連接沿軸。

join：{‘內部’、‘外’}，默認 ‘外’。如何處理其他axis（es）上的索引。聯盟內，外的交叉口。

ignore_index︰布爾值、默認 False。如果為 True，則不要串聯軸上使用的索引值。由此產生的軸將標記 0，…，n-1。這是有用的如果你串聯串聯軸沒有有意義的索引信息的對象。請註意在聯接中仍然受到尊重的其他軸上的索引值。
join_axes︰索引對象的列表。具體的指標，用於其他 n-1 軸而不是執行內部/外部設置邏輯。
keys︰序列，默認為無。構建分層索引使用通過的鍵作為最外面的級別。如果多個級別獲得通過，應包含元組。
levels︰列表的序列，默認為無。具體水平（唯一值）用於構建多重。否則，他們將推斷鑰匙。
names︰列表中，默認為無。由此產生的分層索引中的級的名稱。
verify_integrity︰布爾值、默認 False。檢查是否新的串聯的軸包含重復項。這可以是相對於實際數據串聯非常昂貴。
副本︰布爾值、默認 True。如果為 False，請不要，不必要地復制數據。

例子：

　　1、frames = [df1, df2, df3]

　　2、result = pd.concat(frames)

2、設置索引列

df_inner.set_index(‘id‘)

               date    city    category    age    price    gender    pay   m-point
id                                
1001    2013-01-02    Beijing      100-A    23    1200.0    male      Y    10
1002    2013-01-03    SH           100-B    44    NaN       female    N    12
1003    2013-01-04    guangzhou    110-A    54    2133.0    male      Y    20
1004    2013-01-05    Shenzhen     110-C    32    5433.0    female    Y    40
1005    2013-01-06    shanghai     210-A    34    NaN       male      N    40
1006    2013-01-07    BEIJING      130-F    32    4432.0    female    Y    40

3、按照特定列的值排序：
df_inner.sort_values(by = [‘age’])

      id            date    city    category    age    price    gender    pay   m-point
0    1001    2013-01-02    Beijing    100-A     23    1200.0    male       Y    10
3    1004    2013-01-05    Shenzhen   110-C     32    5433.0    female     Y    40
5    1006    2013-01-07    BEIJING    130-F     32    4432.0    female     Y    40
4    1005    2013-01-06    shanghai   210-A     34    NaN       male       N    40
1    1002    2013-01-03    SH         100-B     44    NaN       female     N    12
2    1003    2013-01-04    guangzhou  110-A     54    2133.0    male       Y    20

4、按照索引排序：
df_inner.sort_index()

       id           date    city    category    age    price    gender    pay   m-point
0    1001    2013-01-02    Beijing    100-A     23     1200.0    male      Y    10
1    1002    2013-01-03    SH         100-B     44     NaN       female    N    12
2    1003    2013-01-04    guangzhou  110-A     54     2133.0    male      Y    20
3    1004    2013-01-05    Shenzhen   110-C     32     5433.0    female    Y    40
4    1005    2013-01-06    shanghai   210-A     34     NaN       male      N    40
5    1006    2013-01-07    BEIJING    130-F     32     4432.0    female    Y    40

5、如果price列的值 > 3000, group列顯示 high，否則顯示 low：

df_inner[‘group‘] = np.where(df_inner[‘price‘] > 3000,‘high‘,‘low‘)

       id          date    city    category    age    price    gender    pay    m-point   group
0    1001    2013-01-02    Beijing    100-A    23      1200.0    male      Y        10    low
1    1002    2013-01-03    SH         100-B    44      NaN       female    N        12    low
2    1003    2013-01-04    guangzhou  110-A    54      2133.0    male      Y        20    low
3    1004    2013-01-05    Shenzhen   110-C    32      5433.0    female    Y        40    high
4    1005    2013-01-06    shanghai   210-A    34      NaN       male      N        40    low
5    1006    2013-01-07    BEIJING    130-F    32      4432.0    female    Y        40    high

6、對符合多個條件的數據進行分組標記：
df_inner.loc[(df_inner[‘city‘] == ‘beijing‘)&(df_inner[‘price‘] >= 4000), ‘sign‘] = 1

       id           date    city    category    age    price    gender    pay    m-point    group    sign
0    1001    2013-01-02    Beijing    100-A      23    1200.0    male      Y      10         low     NaN
1    1002    2013-01-03    SH         100-B      44    NaN       female    N      12         low     NaN
2    1003    2013-01-04    guangzhou  110-A      54    2133.0    male      Y      20         low     NaN
3    1004    2013-01-05    Shenzhen   110-C      32    5433.0    female    Y      40         high    NaN
4    1005    2013-01-06    shanghai   210-A      34    NaN       male      N      40         low     NaN
5    1006    2013-01-07    BEIJING    130-F      32    4432.0    female    Y      40         high    NaN

7、對category字段的值依次進行分列，並創建數據表，索引值為 df_inner 的索引列，列名稱為 category 和 size

　　　　pd.DataFrame((x.split(‘-‘) for x in df_inner[‘category’]),index=df_inner.index,columns=[‘category’,’size’]))

8、將完成分裂的數據表和原df_inner 數據表進行匹配：

　　df_inner=pd.merge(df_inner,split,right_index=True, left_index=True)

五、數據提取

主要用到三個函數： loc、iloc 和 ix。

　　loc 函數按標簽值進行提取

　　iloc 按位置進行提取

　　ix 可以同時按標簽和位置進行提取

1、按索引提取單行的數值

　　df_inner.loc[3]

id                         1004
date        2013-01-05 00:00:00
city                   Shenzhen
category                  110-C
age                          32
price                      5433
gender                   female
pay                           Y
m-point                      40
group                      high
sign                        NaN
Name: 3, dtype: object

2、按索引提取區域行數值

df_inner.iloc[0:3]

       id          date    city    category    age    price    gender    pay    m-point    group  sign
0    1001    2013-01-02    Beijing    100-A    23    1200.0    male       Y          10    low    NaN
1    1002    2013-01-03    SH         100-B    44    NaN       female     N          12    low    NaN
2    1003    2013-01-04    guangzhou  110-A    54    2133.0    male       Y          20    low    NaN

3、重設索引：

df_inner.reset_index()

4、設置日期為索引：
df_inner = df_inner.set_index( ‘date‘ )

5、提取 4 日之前的所有數據

df_inner[: ‘2013-01-04‘]

6、使用 iloc 按位置區域提取數據：

df_inner.iloc[:3, :2] # 冒號前後的數字不在是索引的標簽名稱，而是數據所在的位置，從0 開始，前三行，前兩行。

7、適應 iloc 按位置單獨提起數據：

df_inner.iloc[[0, 2, 5], [4, 5]] # 提取 0、2、5行，4、5列

8、使用 ix 按索引標簽和位置混合提取數據

df_inner[: ‘2013-01-03‘, :4] # 2013-01-03 好之前，前四列的數據

9、判斷city列的值是否為北京

df_inner[‘city‘].isin([‘beijing‘])

10、判斷 city 列裏是否包含bejing 和 shanghai，然後將符合條件的數據提取出來

df_inner.loc[df_inner[ ‘city‘ ].isin([ ‘beijing‘ , ‘sahnghai‘ ] )]

11、提取前三個字符，並生成數據表

pd.DataFrame(category.str[:3])

六、數據篩選

使用與、或、非三個條件配合大於、小於、等於對數據進行篩選，並進行計數和求和。

1、使用“與” 進行篩選

df_inner.loc(df_inner[‘age‘] > 25)&(df_inner[‘city‘] == ‘beijing‘),[‘id‘,‘city‘,‘age‘,‘category‘,‘gender‘] ]

2、使用 “或”進行刪選

df_inner.loc[(df_inner[‘age‘]>25) | (df_inner[‘city‘ ] == ‘beijing‘),[‘id‘,‘city‘,‘age‘,‘category‘,‘gender‘]].sort([‘age‘])

3、使用 ‘非’ 條件進行篩選

df_inner.loc[(df_inner[‘city‘] != ‘beijing‘),[‘id‘,‘city‘,‘age‘,‘category‘,‘gender‘]].sort([‘id‘])

4、對篩選後的數據按city列進行計數:

df_inner.loc[(df_inner[‘city‘] != ‘beijing‘).[‘id‘,‘city‘,‘age‘,‘category‘,‘gender‘]].sort([‘id‘]).city.count()

5、使用query函數進行篩選

df_inner.query(‘city==[‘beijing‘,‘shanghai‘]‘)

6、對篩選後的結果按price進行求和

df_inner.query(‘city ==[‘beijing‘, ‘shanghai‘]‘).price.sum()

七、數據匯總

主要函數是groupby 和 pivote_table

1、對所有的列進行計數匯總

df_inner.groupby(‘city‘).count()

2、按城市對 id 字段進行計數

df_inner.groupby(‘city‘)[‘id‘].count()

3、對兩個字段進行匯總計數

df_inner.groupby([‘city‘, ‘size‘])[‘id‘].count()

4、對city字段進行匯總，並分別計算price 的合計和均值

df_inner.groupby(‘city‘)[‘price‘].agg([len, np.su, np.mean])

八、數據統計

數據采樣，計算標準差、協方和相關系數

1、簡單的數據采樣

df_inner.sample(n = 3)

2、手動設置采樣權重

weights = [0, 0, 0, 0, 0.5, 0.5]

df_inner.sample(n = 6, replace = False)

3、采樣後不放回

df_inner.sample(n=6, replace = False)

4、采樣後放回

df_inner.sample(n = 6, replace = False)

5、數據表描述性統計

df_inner.describe().round(2).T # round 函數是設置小數位，T表示轉置

6、計算列的標準差

df_inner[ ‘price‘ ].std()

7、計算兩個字段間的協方差

df_inner[‘price‘].cov(df_inner[‘m-point‘])

8、數據表中所有的字段間的協方差

df_inner.cov()

9、兩個字段間的相關性分析

df_inner[‘price‘].corr(df_inner[‘m-point‘]) # 相關系數在 -1 到 1 之間，接近 1 為正相關，接近 -1 為負相關， 0 為不相關

10、數據表的相關分析

df_inner.corr()

九、數據輸出

分析後的數據可以輸出為 xlsx 格式和 csv 格式

1、寫入 Excel

df_inner.to_excel( ‘excel_to_python.xlsx‘, sheet_name = ‘bluewhale_cc‘)

2、寫入到 CSV

df_inner.to_csv(‘excel_to_python.csv‘)

Pandas 用法匯總

fill 描述都沒有 date 意義 res 寫入 pla 數據篩選一、生成數據表 1、首先導入pandas 庫，一般會用到 numpy 庫，所以我們先導入備用： import numpy as np import pandas as pd 2、生成

Pandas 用法匯總

Pandas 用法匯總

常用正則用法匯總

BeanShell用法匯總（部分摘抄至網絡）

Python Enum 枚舉用法匯總

MySQL常用命令匯總及用法

Linux中find命令用法全匯總，看完就沒有不會用的！

MySQL5.7源碼安裝問題匯總

Win10正式版快捷鍵大全,Win10快捷組合鍵匯總

工具類url匯總

WPF中查看PDF文件 - 基於開源的MoonPdfPanel （無需安裝任何PDF閱讀器）問題匯總

js實現window.open不被攔截的解決方法匯總

mysql 庫基礎命令匯總

機器學習最佳入門學習資料匯總

之前所學復習匯總

Android入門級編譯錯誤匯總

Embeded linux之內核編譯錯誤警告匯總

JavaScript要點匯總——The Most Important

MS17-010 "Eternal Blue（永恒之藍）”，修復補丁下載匯總地址！

ELK錯誤匯總

mysql數據庫基礎命令匯總2

Pandas 用法匯總

相關推薦