pandas常用函數

阿新 • • 發佈：2017-12-04

.get 使用 min() 避免 digits get lin 缺省 etime

1 import語句

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt 
import datetime
import re

2 文件讀取

df = pd.read_csv(path=‘file.csv‘)
參數：header=None  用默認列名，0，1，2，3...
     names=[‘A‘, ‘B‘, ‘C‘...] 自定義列名
     index_col=‘A‘|[‘A‘, ‘B‘...]  給索引列指定名稱，如果是多重索引，可以傳list
     skiprows=[0,1,2] 需要跳過的行號，從文件頭0開始，skip_footer從文件尾開始
     nrows 
=N 需要讀取的行數，前N行
     chunksize=M 返回叠代類型TextFileReader，每M條叠代一次，數據占用較大內存時使用
     sep=‘:‘數據分隔默認是‘,‘，根據文件選擇合適的分隔符，如果不指定參數，會自動解析
     skip_blank_lines=False 默認為True，跳過空行，如果選擇不跳過，會填充NaN
     converters={‘col1‘, func} 對選定列使用函數func轉換，通常表示編號的列會使用（避免轉換成int）

dfjs = pd.read_json(‘file.json‘)  可以傳入json格式字符串
dfex  
= pd.read_excel(‘file.xls‘, sheetname=[0,1..]) 讀取多個sheet頁，返回多個df的字典

3 數據預處理

df.duplicated()           返回各行是否是上一行的重復行
df.drop_duplicates()      刪除重復行，如果需要按照列過濾，參數選填[‘col1‘, ‘col2‘,...]
df.fillna(0)              用實數0填充na
df.dropna()               axis=0|1  0-index 1-column
                          how=‘all‘|‘any‘ all-全部是NA才刪  any-只要有NA就全刪
del df[‘col1‘]            直接刪除某一列              
df.drop([‘col1‘,...], aixs=1)   刪除指定列，也可以刪除行                          
df.column = col_lst       重新制定列名
df.rename(index={‘row1‘:‘A‘},   重命名索引名和列名
          columns={‘col1‘:‘A1‘})  
df.replace(dict)          替換df值，前後值可以用字典表，{1:‘A’, ‘2‘:‘B‘}

def get_digits(str):
    m = re.match(r‘(\d+(\.\d+)?)‘, str.decode(‘utf-8‘))
    if m is not None:   
        return float(m.groups()[0])
    else:
        return 0
df.apply(get_digits)      DataFrame.apply，只獲取小數部分，可以選定某一列或行
df[‘col1‘].map(func)      Series.map，只對列進行函數轉換

pd.merge(df1, df2, on=‘col1‘, 
         how=‘inner‘，sort=True) 合並兩個DataFrame，按照共有的某列做內連接（交集），outter為外連接（並集），結果排序

pd.merge(df1, df2, left_on=‘col1‘, 
         right_on=‘col2‘)   df1 df2沒有公共列名，所以合並需指定兩邊的參考列


pd.concat([sr1, sr2, sr3,...], axis=0) 多個Series堆疊成多行，結果仍然是一個Series
pd.concat([sr1, sr2, sr3,...], axis=1) 多個Series組合成多行多列，結果是一個DataFrame，索引取並集，沒有交集的位置填入缺省值NaN

df1.combine_first(df2)   用df2的數據補充df1的缺省值NaN，如果df2有更多行，也一並補上

df.stack()              列旋轉成行，也就是列名變為索引名，原索引變成多層索引，結果是具有多層索引的Series，實際上是把數據集拉長

df.unstack()            將含有多層索引的Series轉換為DataFrame，實際上是把數據集壓扁，如果某一列具有較少類別，那麽把這些類別拉出來作為列
df.pivot()              實際上是unstack的應用，把數據集壓扁

pd.get_dummies(df[‘col1‘], prefix=‘key‘) 某列含有有限個值，且這些值一般是字符串，例如國家，借鑒位圖的思想，可以把k個國家這一列量化成k列，每列用0、1表示

4 數據篩選

df.columns             列名，返回Index類型的列的集合
df.index               索引名，返回Index類型的索引的集合
df.shape               返回tuple，行x列
df.head(n=N)           返回前N條
df.tail(n=M)           返回後M條
df.values              值的二維數組，以numpy.ndarray對象返回
df.index               DataFrame的索引，索引不可以直接賦值修改
df.reindex(index=[‘row1‘, ‘row2‘,...]
           columns=[‘col1‘, ‘col2‘,...]) 根據新索引重新排序
df[m:n]                   切片，選取m~n-1行
df[df[‘col1‘] > 1]     選取滿足條件的行
df.query(‘col1 > 1‘)   選取滿足條件的行
df.query(‘col1==[v1,v2,...]‘) 
df.ix[:,‘col1‘]        選取某一列
df.ix[‘row1‘, ‘col2‘]  選取某一元素
df.ix[:,:‘col2‘]       切片選取某一列之前（包括col2）的所有列
df.loc[m:n]            獲取從m~n行（推薦）
df.iloc[m:n]           獲取從m~n-1行
df.loc[m:n-1,‘col1‘:‘coln‘]   獲取從m~n行的col1~coln列


sr=df[‘col‘]           取某一列，返回Series
sr.values              Series的值，以numpy.ndarray對象返回
sr.index               Series的索引，以index對象返回

5 數據運算與排序

df.T                   DataFrame轉置
df1 + df2              按照索引和列相加，得到並集，NaN填充
df1.add(df2, fill_value=0) 用其他值填充
df1.add/sub//mul/div   四則運算的方法
df - sr                DataFrame的所有行同時減去Series
df * N                 所有元素乘以N
df.add(sr, axis=0)     DataFrame的所有列同時減去Series


sr.order()             Series升序排列
df.sort_index(aixs=0, ascending=True) 按行索引升序
df.sort_index(by=[‘col1‘, ‘col2‘...])  按指定列優先排序
df.rank()              計算排名rank值

6 數學統計

sr.unique             Series去重
sr.value_counts()     Series統計頻率，並從大到小排序，DataFrame沒有這個方法
sr.describe()         返回基本統計量和分位數

df.describe()         按各列返回基本統計量和分位數
df.count()            求非NA值得數量
df.max()              求最大值
df.min()              求最大值
df.sum(axis=0)        按各列求和
df.mean()             按各列求平均值
df.median()           求中位數
df.var()              求方差
df.std()              求標準差
df.mad()              根據平均值計算平均絕對利差
df.cumsum()           求累計和
sr1.corr(sr2)         求相關系數
df.cov()              求協方差矩陣
df1.corrwith(df2)     求相關系數

pd.cut(array1, bins)  求一維數據的區間分布
pd.qcut(array1, 4)    按指定分位數進行區間劃分，4可以替換成自定義的分位數列表   

df[‘col1‘].groupby(df[‘col2‘]) 列1按照列2分組，即列2作為key
df.groupby(‘col1‘)    DataFrame按照列1分組
grouped.aggreagte(func) 分組後根據傳入函數來聚合
grouped.aggregate([f1, f2,...]) 根據多個函數聚合，表現成多列，函數名為列名
grouped.aggregate([(‘f1_name‘, f1), (‘f2_name‘, f2)]) 重命名聚合後的列名
grouped.aggregate({‘col1‘:f1, ‘col2‘:f2,...}) 對不同的列應用不同函數的聚合，函數也可以是多個


df.pivot_table([‘col1‘, ‘col2‘], 
               rows=[‘row1‘, ‘row2‘], 
               aggfunc=[np.mean, np.sum]
               fill_value=0,
               margins=True)  根據row1, row2對col1， col2做分組聚合，聚合方法可以指定多種，並用指定值替換缺省值


pd.crosstab(df[‘col1‘], df[‘col2‘]) 交叉表，計算分組的頻率

pandas常用函數

pandas 常用函數

lose change volume des hot clu return pct lte import numpy as npfrom pandas import DataFrame , Seriesprint ("Axis indexes with duplicate

pandas 常用函數整理

移除 column () fin 方差 apply() 常用函數 apply class pandas常用函數整理，作為個人筆記。僅標記函數大概用途做索引用，具體使用方式請參照pandas官方技術文檔。約定 from pandas import Series

pandas常用函數

.get 使用 min() 避免 digits get lin 缺省 etime 1 import語句 import pandas as pd import numpy as np import matplotlib.pyplot as plt import datet

總結（5）--- Numpy和Pandas庫常用函數

nump span 多個 uniq ffi 單位變換 divide ins 二、常用庫 1.NumPy 　　NumPy是高性能科學計算和數據分析的基礎包。部分功能如下： ndarray, 具有矢量算術運算和復雜廣播能力的快速且節省空間的多維數組。用於對整組數據進

mysql常用函數

row 間隔變為大寫員工 hex eat amp sig rom 一、數學函數abs(x) 返回x的絕對值bin(x) 返回x的二進制（oct返回八進制，hex返回十六進制）ceiling(x) 返回大於x的最小整數值exp(x) 返回值e（自然對數的底

Excel常用函數總結

sga sta zip fbx ont timestamp 等價 time 姓名 Excel常用函數總結 2016-10-28 Kevin 叼著奶瓶撩妹 1. VLOOKUP函數常見形式問題描述：將下圖中G列的數據根據學生的姓名填充到D列。公式解析： =VLO

php 常用函數

uid 集中客戶前行 int class 出現函數影響 die(‘‘) 終止當前php文件的執行,並且向客戶端輸出一個終止原因說明.@ 壓制住當前行代碼警告消息. time() 返回當前系統時間，以秒為消息的整數 $id = mysqli_i

numpy中一些常用函數的用法總結

num matrix 空白記錄維數補充結果創建 array 先簡單記錄一下，後續補充詳細的例子 1. strip()函數 s.strip(rm)：s為字符串，rm為要刪除的字符序列只能刪除開頭或是結尾的字符或者字符串。不能刪除中間的字符或是字符串當rm為空

『Python』Numpy學習指南第三章__常用函數

第一個 indices first 填充 del lib ida like otl 感覺心情漸漸變好了，加油！np.eye(2)np.savetxt(‘eye.txt‘,i2)c,v = np.loadtxt(‘data.csv‘, delimiter=‘,‘, useco

Data Frame的常用函數

with obj ascend req end map column min range 1.DataFrame的常用函數： (1)np.abs(frame) 絕對值， (2)apply function,　　lambda f= lambda x: x.max()-x.mi

matlab-常用函數（2）

() size [] 函數返回 atl 16px empty emp nbsp isempty(A) 功能解釋　　isempty()用來判斷一個矩陣是否為空矩陣，其用法相當於C語言中的“a==NULL”。　　當參數為空矩陣時，該函數返回邏輯值“1”，反之返回“0”

php數組常用函數總結

exist numeric highlight 填充 fix 第一個 ima null 空數組數組的創建　　 $arr1 = [ "姓名" => "張三", "籍貫" => "上海", "年齡" => 12, "職位

頭文件algorithm中的常用函數

執行 max pan style col 叠代器 n個元素刪除 enc 頭文件algorithm中的常用函數一、非修改性序列操作（12個）循環對序列中的每個元素執行某操作 for_each() 查找在序列中找出某個值

NumPy常用函數(一)——構造數組函數及代碼示例

unp tom 形狀 top instance produce base dom 新的　　NumPy是Python的一個科學計算的基本模塊。它是一個Python庫，提供了一個多維數組對象，各種衍生對象（如屏蔽數組和矩陣），以及用於數組，數學，邏輯，形狀操縱，排序，選擇，I

PostgresSQL常用函數

span data ken 數據 pan 名稱 end sel color 1.系統信息函數 1.會話信息函數 edbstore=# select current_catalog; #查詢當前數據庫名稱 current_database -------

字符類數組的常用函數

順序庫函數運用大小寫參數 cmp com 使用下使用對於字符串首先第一反應所需的頭文件就是 #include <cstring> 或者寫成（ #include <string.h>）在這個頭文件下呢，有幾個常用的函數：　1. strl

matlab-常用函數（4）

更新 b- brush blog log matlab nbsp 返回 find() find()函數的用法搜索矩陣中指定數值的下標，若指定值有多個，則返回多個下標: x = 1:2:20 x = 1 3 5 7 9 11

『Python』常用函數實踐筆記

sta lca extend article next() idea array cep 數組元素庫安裝： 1）.pip & conda 2）.在win10下手動安裝python庫的方法：『python』計算機視覺_OpenCV3庫安裝原生： list.app

javascript中常用函數匯總

error 增強記憶 script bsp 判斷字符值範圍 float int js中函數很多，在實際項目開發中，函數的應用可以很大程度上簡化我們的代碼，所以在此記下開發中js中常用的函數，增強記憶。 1.isNaN(X)：函數用於檢查其參數是否是非數字值。如果 x

cesiium常用函數

oid mapi middle win 所在服務 ons coder () 1. 初始化viewer對象 //創建cesium Viewer viewer = new Cesium.Viewer(‘cesiumContainer&rsqu

pandas常用函數

1 import語句

2 文件讀取

3 數據預處理

4 數據篩選

5 數據運算與排序

6 數學統計

相關推薦