pandas常見用法總結

前言

Pandas是一個開放原始碼的Python庫，它使用強大的資料結構提供高效能的資料操作和分析工具。這篇文章以例項方式介紹了pandas的常見用法。

匯入

# pandas一般會與numpy配合使用
import pandas as pd 
import numpy as np

DataFrame

由一系列的Series組成

# Series是DataFrame的一列
series_1 = pd.Series(1, 2, "3", "a")  # 建立Serise,它會自動給每個元素加上索引值,從0開始
series_1.index = ["a" 
,"b","c","d"]  # 修改索引值
series_1.drop["a"]  # 刪
series_1["a"] = 4  # 改
series_1["a"]  # 查

檢視資訊

# a是一個DataFrame

a.info() # 顯示資料資訊：列名、非空數量、資料型別等。

a.describe() # 可以得到數值型資料的一些分佈

a.head()  # 顯示資料(一般顯示前5行,可以在括號中指定顯示幾行)

a.tail()  # 顯示後幾行資料      

a.columns  # 顯示列名

a.shape  # 顯示形狀

建立一列資料

s = 
 pd.Series([1,np.nan,44])
print(s)
0     1.0
1     NaN
2    44.0
dtype: float64

建立一個數據表

df = pd.DataFrame(np.random.randn(6,4)) # 有索引       
print(df)
          0         1         2         3
0 -0.485819  1.465311 -0.874580 -0.801833
1 -1.195040  0.438705 -0.152660 -0.896882
2  0.601379  0.871732 -0.232300 -1.942046 

3 -1.467846  0.985194  0.802487  1.073567
4  1.137115  1.414391 -0.194927  0.145966
5  0.403413  1.570771  1.883406 -0.559665

構建一個時間序列:從20181212開始的6天


dates = pd.date_range('20181212', periods=6) 
print(dates)
DatetimeIndex(['2018-12-12', '2018-12-13', '2018-12-14', '2018-12-15',
               '2018-12-16', '2018-12-17'],
              dtype='datetime64[ns]', freq='D')

構建一個有行名有列名的表

# index是用上述的時間序列作為行名，columns是列名
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=['a','b','c','d'])
print(df)
                   a         b         c         d
2018-12-12 -0.408206  0.690151 -0.255535 -0.825533
2018-12-13 -0.782994  0.846120 -2.369437 -0.563946
2018-12-14  0.592621  0.642034  0.631633  0.470060
2018-12-15 -1.716559  0.687173 -2.644728  0.084093
2018-12-16  0.010821 -0.669383  0.484277 -0.455398
2018-12-17 -0.686960  0.171372  0.501168  0.651696

輸出上表的資料型別

print(df.dtypes)
a    float64
b    float64
c    float64
d    float64
dtype: object

輸出上表的行名和列名

print(df.index) # 輸出行名
DatetimeIndex(['2018-12-12', '2018-12-13', '2018-12-14', '2018-12-15',
               '2018-12-16', '2018-12-17'],
              dtype='datetime64[ns]', freq='D')
             
print(df.columns) # 輸出列名
Index(['a', 'b', 'c', 'd'], dtype='object')

排序

print(df)
# axis=1是對第2個維度(列名)排序；axis=0是對第1個維度(行名)排序。
# ascending=False為倒序排序，預設為True正序。
print(df.sort_index(axis=1, ascending=False)) 
                   a         b         c         d
2018-12-12 -0.806089  0.660987 -0.137833 -0.724158
2018-12-13 -0.375285 -1.071433 -1.046819  0.414112
2018-12-14  0.377175 -0.751585  0.197294  0.048427
2018-12-15 -0.872873  0.154589 -0.225713  0.713596
2018-12-16 -0.028886  1.199271  0.306876 -0.268253
2018-12-17 -1.468384 -0.105490  1.179329 -1.655588
                   d         c         b         a
2018-12-12 -0.724158 -0.137833  0.660987 -0.806089
2018-12-13  0.414112 -1.046819 -1.071433 -0.375285
2018-12-14  0.048427  0.197294 -0.751585  0.377175
2018-12-15  0.713596 -0.225713  0.154589 -0.872873
2018-12-16 -0.268253  0.306876  1.199271 -0.028886
2018-12-17 -1.655588  1.179329 -0.105490 -1.468384


# 對特定的列排序
print(df.sort_values(by='a', ascending=True))
                   a         b         c         d
2018-12-17 -1.468384 -0.105490  1.179329 -1.655588
2018-12-15 -0.872873  0.154589 -0.225713  0.713596
2018-12-12 -0.806089  0.660987 -0.137833 -0.724158
2018-12-13 -0.375285 -1.071433 -1.046819  0.414112
2018-12-16 -0.028886  1.199271  0.306876 -0.268253
2018-12-14  0.377175 -0.751585  0.197294  0.048427

索引1

dates = pd.date_range('20181212',periods=6)
df = pd.DataFrame(np.arange(24).reshape([6,4]),index=dates, columns=['A','B','C','D'])
print(df)
             A   B   C   D
2018-12-12   0   1   2   3
2018-12-13   4   5   6   7
2018-12-14   8   9  10  11
2018-12-15  12  13  14  15
2018-12-16  16  17  18  19
2018-12-17  20  21  22  23

print(df['A']) # 同 df.A，檢索到特定一列
2018-12-12     0
2018-12-13     4
2018-12-14     8
2018-12-15    12
2018-12-16    16
2018-12-17    20
Freq: D, Name: A, dtype: int32

# 切片操作 
print(df[0:3]) # 同 df['20181212':'20181214']，索引或者行名都可以
            A  B   C   D
2018-12-12  0  1   2   3
2018-12-13  4  5   6   7
2018-12-14  8  9  10  11

檢索2

df.loc和df.iloc的用法：

print(df)
             A   B   C   D
2018-12-12   0   1   2   3
2018-12-13   4   5   6   7
2018-12-14   8   9  10  11
2018-12-15  12  13  14  15
2018-12-16  16  17  18  19
2018-12-17  20  21  22  23

# df.loc：以行名、列名檢索
print(df.loc['20181213']) # 檢索到特定一行
A    4
B    5
C    6
D    7
Name: 2018-12-13 00:00:00, dtype: int32

print(df.loc[:,['A','B']]) # 所有行的A、B列
             A   B
2018-12-12   0   1
2018-12-13   4   5
2018-12-14   8   9
2018-12-15  12  13
2018-12-16  16  17
2018-12-17  20  21

print(df.loc['20181212',['A','B']]) # 20181212行的A、B列
A    0
B    1
Name: 2018-12-12 00:00:00, dtype: int32

# df.iloc：以索引號(從0開始)檢索
print(df.iloc[3]) # 第三行
A    12
B    13
C    14
D    15
Name: 2018-12-15 00:00:00, dtype: int32

print(df.iloc[3,1]) # 第三行的第一列
13

print(df.iloc[3:5,1:3]) # 3-5行的1-3列
             B   C
2018-12-15  13  14
2018-12-16  17  18


print(df[df.A > 12]) # 找出A列大於12的行
             A   B   C   D
2018-12-16  16  17  18  19
2018-12-17  20  21  22  23

修改元素值

dates = pd.date_range('20181212',periods=6)
df = pd.DataFrame(np.arange(24).reshape([6,4]),index=dates, columns=['A','B','C','D'])
print(df)
             A   B   C   D
2018-12-12   0   1   2   3
2018-12-13   4   5   6   7
2018-12-14   8   9  10  11
2018-12-15  12  13  14  15
2018-12-16  16  17  18  19
2018-12-17  20  21  22  23

df.iloc[2,2] = 2222 # 將第二行第二列元素值改為2222
print(df)
             A   B     C   D
2018-12-12   0   1     2   3
2018-12-13   4   5     6   7
2018-12-14   8   9  2222  11
2018-12-15  12  13    14  15
2018-12-16  16  17    18  19
2018-12-17  20  21    22  23

df.loc['20181214','B'] = 6666 # 按行名列名改
             A     B     C   D
2018-12-12   0     1     2   3
2018-12-13   4     5     6   7
2018-12-14   8  6666  2222  11
2018-12-15  12    13    14  15
2018-12-16  16    17    18  19
2018-12-17  20    21    22  23

df[df.A>6]=222 # 把A列中所有大於6的行的值變為222
print(df)
              A    B    C    D
2018-12-12    0    1    2    3
2018-12-13    4    5    6    7
2018-12-14  222  222  222  222
2018-12-15  222  222  222  222
2018-12-16  222  222  222  222
2018-12-17  222  222  222  222

df.B[df.A>3]=999 # 再把A中所有大於3的B列值變為999
print(df)
              A    B    C    D
2018-12-12    0    1    2    3
2018-12-13    4  999    6    7
2018-12-14  222  999  222  222
2018-12-15  222  999  222  222
2018-12-16  222  999  222  222
2018-12-17  222  999  222  222

df['F'] = np.nan #新增一列 全為NaN
print(df)
              A    B    C    D   F
2018-12-12    0    1    2    3 NaN
2018-12-13    4  999    6    7 NaN
2018-12-14  222  999  222  222 NaN
2018-12-15  222  999  222  222 NaN
2018-12-16  222  999  222  222 NaN
2018-12-17  222  999  222  222 NaN

df['E'] = [1,2,3,4,5,6] # 再新增一列，給定值
print(df)
              A    B    C    D   F  E
2018-12-12    0    1    2    3 NaN  1
2018-12-13    4  999    6    7 NaN  2
2018-12-14  222  999  222  222 NaN  3
2018-12-15  222  999  222  222 NaN  4
2018-12-16  222  999  222  222 NaN  5
2018-12-17  222  999  222  222 NaN  6

NaN

pandas中缺失資料用NaN來表示。

dates = pd.date_range('20181212',periods=3)
df = pd.DataFrame(np.arange(12).reshape([3,4]),index=dates, columns=['A','B','C','D'])
df.iloc[0,1] = np.nan
df.iloc[1,3] = np.nan
print(df) 
            A    B   C     D
2018-12-12  0  NaN   2   3.0
2018-12-13  4  5.0   6   NaN
2018-12-14  8  9.0  10   
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    pandas常見用法總結
       
 
  
  
 前言 
 Pandas是一個開放原始碼的Python庫，它使用強大的資料結構提供高效能的資料操作和分析工具。這篇文章以例項方式介紹了pandas的常見用法。 
 匯入 
 # pandas一般會與numpy配合使用
import pandas as pd 
import numpy as 

  
 

    

    
    VIM常見用法總結
      變量   閱讀   meta   vim   gui   其中   red   字段排序   復制   歡迎和大家交流技術相關問題：
郵箱: [email protected]
博客園地址: http://www.cnblogs.com/jiangxinnju
GitHub地址: https://gith 

  
 

    

    
    sed常見用法總結
      pen   efault   login   必須   passwd   文件內容   參數   分享   刪除！   

簡介
sed 是一種在線編輯器，它一次處理一行內容。處理時，把當前處理的行存儲在臨時緩沖區中，稱為“模式空間”（pattern space），接著用sed命令處理緩沖區中的內容，處理完成 

  
 

    

    
    layui(九)——flow組件常見用法總結
      data   常見   size   內容   官網   add   function   ring   不用   　　該模塊包含 信息流加載 和  圖片懶加載  兩大核心支持，無論是對服務端、還是前端體驗，都有非常大的性能幫助。下邊分別給出了這兩種技術的使用方法
一、信息流加載
　　信息流加載的核心方法時  

  
 

    

    
    ffmpeg常見用法總結
      lib   ibm   去掉   output   codec   視頻   遇到   safe   concat   1. 視頻/音頻剪切：
ffmpeg -i input.mp3 [-ss 00:00:10] [-t 00:00:20] output.mp3

去掉-ss指令表示從頭開始
去掉-t指令表示 

  
 

    

    
    C++ vector常見用法總結
       
 
 此文為個人學習備份，點選這裡訪問原文。
 
 vector是一個動態的序列容器，相當於一個size可變的陣列。
     相比於陣列，vector會消耗更多的記憶體以有效的動態增長。而相比於其他動態序列容器(deques, lists and forward_lists 

  
 

    

    
    grep常見用法總結
      
                
grep -E 'l\{2,\}' 2.txt
grep -E 'h(ell|a)o' test.txt
grep '[a-z]\{5,\}' test.txt
grep -xf a.txt b.txt  //查詢a與b共同存在的行
grep -vxf b.txt a.tx 

  
 

    

    
    pandas模組常見用法
       
 
  
  
 一、匯入模組 
 import time,random
import pandas as pd
import numpy as np
 
 二、用法 
 說明： 
 df物件為 df=pd.DataFrame(dict)
s物件為 s=pd.Series(data=dict)
 
 1、 

  
 

    

    
    Pandas中Series用法總結
       
  
  
 Series：帶標籤的陣列 
  本文對Pandas包中的一維資料型別Series特點及用法進行了總結歸納。  
 2.1 如何建立Sereis 
 #匯入Pandas包
import pandas as pd

#建立Series
#1.1.1 通過列表List
listSer=pd.Se 

  
 

    

    
    Pandas中DataFrame用法總結
       
  
  
 DataFrame：類似於表的資料結構 
  本文對Pandas包中二維（多維）資料結構DataFrame的特點和用法進行了總結歸納。 可以參考：pandas用法速覽  
 3.1 增加資料 
 3.1.1 建立資料框Object Creation 
 import pandas as pd 

  
 

    

    
    List常見方法用法總結
      
							
							
							Collection 介面雖然是集合中最大的介面，但是如果直接使用Collection進行操作，表意並不明確，因此現在Collection介面現在已經不提倡使用，在這總結一下List子介面下的ArrayList類常見用法。
先在此羅列一些List介面中常見常用的 

  
 

    

    
    C語言中的Scanf函式常見用法之陷阱總結：
       
 
 C語言中的Scanf函式常見用法之陷阱總結：  
 // C/C++語言中，scanf函式使用陷阱注意：

//常見使用方式一： scanf("%d",&a,&b);----遇到空格或\n或非數字結束

//常見使用方式二： scanf("%s",array);----遇到 

  
 

    

    
    適配ListView的幾種常見Adapter的用法總結
      
								
								            
						
                
1. BaseAdapter

（1）用法

它是所有Adapter的父類，是一個通用的基礎Adapter，繼承它時必須複寫四個方法 ：getCount(), getItem(), getItemId 

  
 

    

    
    EXCEL函式常見用法逐日總結
      
                
1.Sumif函式
  1.1含義：sumif函式是用來根據指定條件對若干單元格進行求和。（即按條件求和,sumif函式為單條件判斷）
  1.2格式：sumif(range，criteria，sum_range)       Sumif（條件區域，求和條件，實際求和區域） 

  
 

    

    
    【面試】【Spring常見問題總結】【06】
      類名   truct   htm   持久化框架   type   兩個   請求   method   val   


【常見面試問題總結文件夾>>>】




51、spring中的applicationContext.xml能不能改為其它名字
ContextLoaderListene 

  
 

    

    
    git branch用法總結
      如果   命名   參數   war   blank   org   2.6   重命名   scm   Git branch      git branch 不帶參數：列出本地已經存在的分支，並且在當前分支的前面加“*”號標記，例如：   #git branch* master    

  
 

    

    
    numpy中一些常用函數的用法總結
      num   matrix   空白   記錄   維數   補充   結果   創建   array   先簡單記錄一下，後續補充詳細的例子
 
1. strip()函數
s.strip(rm)：s為字符串，rm為要刪除的字符序列
只能刪除開頭或是結尾的字符或者字符串。不能刪除中間的字符或是字符串
當rm為空 

  
 

    

    
    【面試】【Spring常見問題總結】【07】
      之間   編程方式   順序   莫名其妙   接口編程   情況   spring容器   相互   lazy   


【常見面試問題總結文件夾>>>】




61、Spring IoC容器的依賴有兩層含義：
Bean依賴容器：也就是說Bean要依賴於容器，這裏的依賴是指容器負責創建B 

  
 

    

    
    MySQL之常見問題總結
      nec   請求   size   art   oca   而且   設置   正常的   黑客   




MySQL總是崩潰

首先你應該試著找出問題MySQLd守護進程是否死掉或你的問題是否與你的客戶有關。你能夠用MySQLadmin version檢查你的MySQLdserver正常運行了多長時間。 

  
 

    

    
    數組去重，call、apply、bind之間的區別，this用法總結
      步驟   --   之間   undefined   定義   ply   clas   turn   需要   一、數組去重，直接寫到Array原型鏈上。

 1 //該方法只能去除相同的數字   不會去判斷24和‘24‘是不同的   所有數字和字符串數字是相同是重復的
 2 Array.prototype