Python之Pandas 相關操作03---常用方法總結速查

阿新 • • 發佈：2020-07-09

在這個速查手冊中，我們使用如下縮寫：

df：任意的Pandas DataFrame物件
s：任意的Pandas Series物件
raw：行標籤
col：列標籤

匯入依賴包：

import pandas as pd
import numpy as np

1.匯入資料

pd.read_csv(filename_path)：從CSV檔案匯入資料
pd.read_table(filename_path)：從限定分隔符的文字檔案匯入資料
pd.read_excel(filename_path)：從Excel檔案匯入資料
pd.read_sql(query, connection_object)：從SQL表/庫匯入資料

pd.read_json(json_string)：從JSON格式的字串匯入資料
pd.read_html(url)：解析URL、字串或者HTML檔案，抽取其中的tables表格
pd.read_clipboard()：從你的貼上板獲取內容，並傳給read_table()
pd.DataFrame(dict)：從字典物件匯入資料，Key是列名，Value是資料

2.匯出資料

df.to_csv(filename_path)：匯出資料到CSV檔案
df.to_excel(filename_path)：匯出資料到Excel檔案
df.to_sql(table_name, connection_object)：匯出資料到SQL表

df.to_json(filename_path)：以Json格式匯出資料到文字檔案

3.建立測試資料

pd.DataFrame(np.random.rand(20,5))：建立20行5列的隨機陣列成的DataFrame物件
pd.Series(my_list)：從可迭代物件my_list建立一個Series物件
df.index = pd.date_range('1900/1/30', periods=df.shape[0])：增加一個日期索引

4.檢視、檢查資料

df.head(n)：檢視DataFrame物件的前n行（不加引數，預設前10行）
df.tail(n)：檢視DataFrame物件的最後n行（不加引數，預設後10行

）
df.shape()：檢視行數和列數（維度檢視）
df.info()：檢視索引、資料型別和記憶體資訊
df.describe()：檢視數值型列的彙總統計
s.value_counts(dropna=False)：檢視Series物件的唯一值和計數
df.apply(pd.Series.value_counts)：檢視DataFrame物件中每一列的唯一值和計數
df.dtypes：檢視每一列的資料型別（擴充套件：df['two'].dtypes，檢視“two”列的型別）
df.isnull()：檢視空置(注：空置部分會用true顯示，不是空置False顯示)（擴充套件：df['two'].isnull，檢視“two”這一列的空置）
df.values：檢視資料表的值
df.columns：檢視列名稱

5.資料選取

df.isin([5])：判斷全部資料值中是否有5
df[col].isin([5])：判斷列col中是否有5
df[col]：根據列名，並以Series的形式返回列
df[[col1, col2]]：以DataFrame形式返回多列
s.iloc[0]：按位置選取行資料
s.loc['index_one']：按索引選取行資料
df.iloc[0,:]：返回第一行
df.iloc[0,0]：返回第一行的第一個元素
df.ix[0] 或 df.ix[raw] ：ix函式可以根據行位置或行標籤選擇行資料

注：loc函式根據行/列標籤(使用者自定義的行名、列名)進行行選擇；

iloc函式根據行/列位置(預設的行列索引)進行行選擇；

6.資料清理

df.columns = ['a','b','c']：重新命名列名
pd.isnull()：檢查DataFrame物件中的空值，並返回一個Boolean陣列
pd.notnull()：檢查DataFrame物件中的非空值，並返回一個Boolean陣列
df.dropna()：刪除所有包含空值的行
df.dropna(axis=1)：刪除所有包含空值的列
df.dropna(axis=1,thresh=n)：刪除所有小於n個非空值的行
df.fillna(x)：用x替換DataFrame物件中所有的空值（注：fillna()會填充nan資料，返回填充後的結果。如果希望在原DataFrame中修改，則把inplace設定為True。如，df.fillna(0,inplace=True)）
s.astype(float)：將Series中的資料型別更改為float型別
df[col].astype(float)：將DataFrame某列資料型別改為float型別
s.replace(1,'first')：用‘first’代替所有等於1的值（替換的是值，不是列名也不是索引名）
s.replace([1,3],['one','three'])：用'one'代替1，用'three'代替3
df[col].replace(1,1.0,inplace=True)：列col中的值1用1.0替換
df.replace([1,3],['one','three'])
df.rename(columns=lambda x: x + 1)：批量更改列名
df.rename(columns={'old_name': 'new_ name'})：選擇性更改列名
df.set_index('column_one')：將column_one這一列變為索引列
df.rename(index=lambda x: x + 1)：批量重新命名索引
df[col]=df[col].str.upper()或df[col].str.lower()：基於列的大小寫轉換
df[col]=df[col].map(str.strip)：清除某列的空格
df.drop_duplicates(subset=col,keep='fisrt',inplace=Flase)：刪除重複值

注：這個drop_duplicate方法是對DataFrame格式的資料，去除特定列下面的重複行。返回DataFrame格式的資料。

subset : column label or sequence of labels, optional 用來指定特定的列，預設所有列
keep : {‘first’, ‘last’, False}, default ‘first’ 刪除重複項並保留第一次出現的項
inplace : boolean, default False 是直接在原來資料上修改還是保留一個副本

7.資料處理

df[df[col] > 0.5]：選擇col列的值大於0.5的行
df.sort_values(col1)：按照列col1排序資料，預設升序排列
df.sort_values(col2, ascending=False)：按照列col1降序排列資料
df.sort_values([col1,col2], ascending=[True,False])：先按列col1升序排列，後按col2降序排列資料
df.groupby(col)：返回一個按列col進行分組的Groupby物件
df.groupby([col1,col2])：返回一個按多列進行分組的Groupby物件
df.groupby(col1)[col2]：返回按列col1進行分組後，列col2的均值
df.pivot_table(index=col1, values=[col2,col3], aggfunc=max)：建立一個按列col1進行分組，並計算col2和col3的最大值的資料透視表
df.groupby(col1).agg(np.mean)：返回按列col1分組的所有列的均值
data.apply(np.mean)：對DataFrame中的每一列應用函式np.mean
data.apply(np.max,axis=1)：對DataFrame中的每一行應用函式np.max
df.isin

8.資料合併

df1.append(df2)：將df2中的行新增到df1的尾部
df.concat([df1, df2],axis=1)：將df2中的列新增到df1的尾部
df1.join(df2,on=col1,how='inner')：對df1的列和df2的列執行SQL形式的join

9.資料統計

df.describe()：檢視資料值列的彙總統計
df.mean()：返回所有列的均值
df.corr()：返回列與列之間的相關係數
df.count()：返回每一列中的非空值(NaN)的個數
df.max()：返回每一列的最大值
df.min()：返回每一列的最小值
df.median()：返回每一列的中位數
df.std()：返回每一列的標準差
df.sum()：返回所有行的和

參考文獻：https://www.cnblogs.com/Downtime/p/9067536.html

Python之Pandas 相關操作03---常用方法總結速查

在這個速查手冊中，我們使用如下縮寫： df：任意的Pandas DataFrame物件 s：任意的Pandas Series物件

[每天一個python小技巧]Python中標準庫OS的常用方法總結

技術標籤：python處理python 前言：最近使用的資料相關的操作比較多，所以對於os的操作使用頻繁，為了避免點開N個瀏覽器進行檢視不同的方法，現將自己常用以及網上所提及的總結歸納如下。

Python操作列表常用方法例項小結【建立、遍歷、統計、切片等】

本文例項講述了Python操作列表常用方法。分享給大家供大家參考，具體如下：

Python-jenkins模組之folder相關操作介紹

我就廢話不多說了，看程式碼吧 import jenkins server = jenkins.Jenkins(\'http://localhost/jenkins\',username=\'username\',password=\'password\')

Python資料分析：pandas 類庫及常用方法

定義：pandas是基於NumPy陣列構建的，使資料預處理、清洗、分析工作變得更快更簡單。pandas是專門為處理表格和混雜資料設計的，而NumPy更適合處理統一的數值陣列資料。

Python之pandas操作

　　中文網：https://www.pypandas.cn/ 　　Pandas是Python的核心資料分析支援庫，提供了快速、靈活、明確的資料結構，旨在簡單、直觀地處理關係型、標記型資料。Pandas 的目標是成為 Python 資料分析實踐與實戰的必

python中aioysql(非同步操作MySQL)的方法

python非同步IO初探探索非同步IO執之前，先說說IO的種類 1.阻塞IO最簡單，即讀寫資料時，需要等待操作完成，才能繼續執行。進階的做法就是用多執行緒來處理需要IO的部分，缺點是開銷會有些大。

Python使用pymongo模組操作MongoDB的方法示例

本文例項講述了Python使用pymongo模組操作MongoDB的方法。分享給大家供大家參考，具體如下：

python檔案操作的簡單方法總結

檔案操作1 #檔案操作流程：1、開啟檔案，得到一個檔案控制代碼；通過檔案控制代碼操作檔案；關閉檔案。

Python操作excel的方法總結（xlrd、xlwt、openpyxl）

前言在處理excel資料時發現了xlwt的侷限性–不能寫入超過65535行、256列的資料（因為它只支援Excel 2003及之前的版本，在這些版本的Excel中行數和列數有此限制），這對於實際應用還是不夠的。為此經過一番尋找發現了

Python timer定時器兩種常用方法解析

這篇文章主要介紹了Python timer定時器兩種常用方法解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python 解析pymysql模組操作資料庫的方法

pymysql 是 python 用來操作MySQL的第三方庫，下面具體介紹和使用該庫的基本方法。

Python基於time模組表示時間常用方法

在Python中，通常有這幾種方式來表示時間：時間戳（timestamp）,表示的是從1970年1月1日00:00:00開始按秒計算的偏移量。例子：1554864776.161901

Python之Pandas使用教程

1.Pandas概述 Pandas是Python的一個數據分析包，該工具為解決資料分析任務而建立。

python迭代器模組itertools常用方法

itertools是python中內建的一種高效的生成各種迭代器或者是類的模組,這些函式的返回值為一個迭代器,經常被用在for迴圈中,當然,也可直接使用next()方法取值,今天就來說說itertools中的常用方法.

詳解python中GPU版本的opencv常用方法介紹

引言本篇是以python的視角介紹相關的函式還有自我使用中的一些問題，本想在這篇之前總結一下opencv編譯的全過程，但遇到了太多坑，暫時不太想回看做過的筆記，所以這裡主要總結python下GPU版本的opencv。

【ClickHouse】0：clickhouse學習4之表相關操作

Clickhouse對錶操作分為四大類：增刪查改(INSERT,DROP,SELECT,ALTER)。增，刪，查比較簡單，改最複雜。那具體有哪些改的操作呢？如下清單：

Python 元組和字典以及常用方法案例

Python 元組和字典以及常用方法案例元組元組格式變數名=(元素1,元素2…) 元組資料提取

python成長之路：11/18,常用魔法總結

# 艹他媽的字典魔法----------------------------------------------- # info = {\"k1\": 1, \"k2\": 2, \"k3\": 4, (1, 2, 3,): [1, 2, 3, 4, {\"k1\": 1, \"k2\": [1, 2]}]}

python之自動化框架中cookies處理方法006

我們在測試非登入模組的時候，會需要cookies，那麼如何傳遞這個cookies呢？方法一：全域性變數缺點：關聯性比較強

Python之Pandas 相關操作03---常用方法總結速查

相關推薦