python pandas速查手冊

阿新 • • 發佈：2020-07-12

pandas介面速查

import pandas as pd

import numpy as np

匯入資料

pd.read_csv(filename)：從CSV檔案匯入資料
pd.read_table(filename)：從限定分隔符的文字檔案匯入資料
pd.read_excel(filename)：從Excel檔案匯入資料
pd.read_sql(query, connection_object)：從SQL表/庫匯入資料
pd.read_json(json_string)：從JSON格式的字串匯入資料
pd.read_html(url)：解析URL、字串或者HTML檔案，抽取其中的tables表格

pd.read_clipboard()：從你的貼上板獲取內容，並傳給read_table()
pd.DataFrame(dict)：從字典物件匯入資料，Key是列名，Value是資料

匯出資料

df.to_csv(filename)：匯出資料到CSV檔案
df.to_excel(filename)：匯出資料到Excel檔案
df.to_sql(table_name, connection_object)：匯出資料到SQL表
df.to_json(filename)：以Json格式匯出資料到文字檔案

建立測試物件

pd.DataFrame(np.random.rand(20,5))：建立20行5列的隨機陣列成的DataFrame物件

pd.Series(my_list)：從可迭代物件my_list建立一個Series物件
df.index = pd.date_range('1900/1/30', periods=df.shape[0])：增加一個日期索引

檢視、檢查資料

df.head(n)：檢視DataFrame物件的前n行
df.tail(n)：檢視DataFrame物件的最後n行
df.shape()：檢視行數和列數
df.info()：檢視索引、資料型別和記憶體資訊
df.describe()：檢視數值型列的彙總統計
s.value_counts(dropna=False)：檢視Series物件的唯一值和計數
df.apply(pd.Series.value_counts)：檢視DataFrame物件中每一列的唯一值和計數

資料選取

df[col]：根據列名，並以Series的形式返回列
df[[col1, col2]]：以DataFrame形式返回多列
s.iloc[0]：按位置選取資料
s.loc['index_one']：按索引選取資料
df.iloc[0,:]：返回第一行
df.iloc[0,0]：返回第一列的第一個元素

資料清理

df.columns = ['a','b','c']：重新命名列名
pd.isnull()：檢查DataFrame物件中的空值，並返回一個Boolean陣列
pd.notnull()：檢查DataFrame物件中的非空值，並返回一個Boolean陣列
df.dropna()：刪除所有包含空值的行
df.dropna(axis=1)：刪除所有包含空值的列
df.dropna(axis=1,thresh=n)：刪除所有小於n個非空值的行
df.fillna(x)：用x替換DataFrame物件中所有的空值
s.astype(float)：將Series中的資料型別更改為float型別
s.replace(1,'one')：用‘one’代替所有等於1的值
s.replace([1,3],['one','three'])：用'one'代替1，用'three'代替3
df.rename(columns=lambda x: x + 1)：批量更改列名
df.rename(columns={'old_name': 'new_ name'})：選擇性更改列名
df.set_index('column_one')：更改索引列
df.rename(index=lambda x: x + 1)：批量重新命名索引

資料處理：Filter、Sort和GroupBy

df[df[col] > 0.5]：選擇col列的值大於0.5的行
df.sort_values(col1)：按照列col1排序資料，預設升序排列
df.sort_values(col2, ascending=False)：按照列col1降序排列資料
df.sort_values([col1,col2], ascending=[True,False])：先按列col1升序排列，後按col2降序排列資料
df.groupby(col)：返回一個按列col進行分組的Groupby物件
df.groupby([col1,col2])：返回一個按多列進行分組的Groupby物件
df.groupby(col1)[col2]：返回按列col1進行分組後，列col2的均值
df.pivot_table(index=col1, values=[col2,col3], aggfunc=max)：建立一個按列col1進行分組，並計算col2和col3的最大值的資料透視表
df.groupby(col1).agg(np.mean)：返回按列col1分組的所有列的均值
data.apply(np.mean)：對DataFrame中的每一列應用函式np.mean
data.apply(np.max,axis=1)：對DataFrame中的每一行應用函式np.max

資料合併

df1.append(df2)：將df2中的行新增到df1的尾部
df.concat([df1, df2],axis=1)：將df2中的列新增到df1的尾部
df1.join(df2,on=col1,how='inner')：對df1的列和df2的列執行SQL形式的join

pandas增刪改查

pandas類似於SQL一樣增刪查改

增：新增新行或增加新列

import pandas as pd
dic = {'Name':['LiuShunxiang','Zhangshan'],'Sex':['M','F'],'Age':[27,23],'Height':[165.7,167.2],'Weight':[61,63]}
student = pd.DataFrame(dic)

dic = {'Name':['LiuShunxiang','Zhangshan'],'Sex':['M','F'],'Age':[27,23],'Height':[165.7,167.2],'Weight':[61,63]}
student = pd.DataFrame(dic)

dic1 = {'Name':['Lisi'],'Sex':['F'],'Age':[23],'Height':[167.2],'Weight':[63]}
student1 = pd.DataFrame(dic1)

#合併兩個DataFrame
student2 = pd.concat([student,student1])
print(student2)

新增列的話，其實在pandas中就更簡單了，例如在student2中新增一列學生成績：

student3 = pd.DataFrame(student2, columns=['Name', "Age", "Height", "Weight", "Sex", "Score"])
print(student3)

對於新增的列沒有賦值，就會出現空NaN的形式。

刪：刪除表、觀測行或變數列

刪除資料框student2,通過del命令實現，該命令可以刪除Python的所有物件。

刪除指定的行

student4 = student3.drop([0])
print(student4)

原資料中的索引為0行的資料已經被刪除了。

根據布林索引刪除行資料，其實這個刪除就是保留刪除條件的反面資料，例如刪除所有14歲以下的學生：

student4 = student3[student3["Age"]>25]
print(student4)

刪除指定的列

student4 = student3.drop(['Height', 'Weight'], axis=1)
print(student4)

我們發現，不論是刪除行還是刪除列，都可以通過drop方法實現，只需要設定好刪除的軸即可，即調整drop方法中的axis引數。預設該引數為0，表示刪除行觀測，如果需要刪除列變數，則需設定為1。

改：修改原始記錄的值

如果發現表中的某些資料錯誤了，如何更改原來的值呢？我們試試結合布林索引和賦值的方法：例如發現student3中姓名為Liushunxiang的學生身高錯了，應該是173，如何改呢？

student3.ix[student3["Name"] == "LiuShunxiang", "Height"] = 170
print(student3)

這樣就可以把原來的身高修改為現在的170了

python pandas速查手冊

pandas介面速查 import pandas as pd import numpy as np 匯入資料 pd.read_csv(filename)：從CSV檔案匯入資料

【轉】Pandas常用速查手冊中文版（二）

Pandas最常用的資料物件是資料框（DataFrame）和Series。資料框與R中的DataFrame格式類似，都是一個二維陣列。Series則是一個一維陣列，類似於列表。資料框是Pandas中最常用的資料組織方式和物件。

【Linux】速查手冊

檢視Linux系統資訊 arch#顯示機器的處理器架構(1) uname -m#顯示機器的處理器架構(2)

[構建工具] Maven速查手冊

介紹 Maven 是一個跨平臺的專案管理工具，主要用於專案構建，依賴管理，專案資訊管理。自動化構建過程，從清理、編譯、測試和生成報告、再到打包和部署。Maven 通過一小段描述資訊來管理專案。

Linux命令速查手冊

檢視Linux系統資訊 arch#顯示機器的處理器架構(1) uname -m#顯示機器的處理器架構(2)

Linux命令速查手冊出爐！

檢視Linux系統資訊 arch#顯示機器的處理器架構(1) uname -m#顯示機器的處理器架構(2)

Linux系統常用命令速查手冊

一、系統資訊 $ arch#顯示機器的處理器架構(1) $ uname -m#顯示機器的處理器架構(2)

sql注入速查手冊（不定期更新）

文章目錄 1 利用方式 1.1 回顯資料系統資訊收集：常見的使用 * 進行標註 system_user()系統使用者名稱

DOM屬性用法速查手冊

DOM屬性用法速查手冊 object　返回包含的物件。　offscreenBuffering　設定或獲取物件在對使用者可見之前是否要先在螢幕外繪製。　offsetHeight　獲取物件相對於版面或由父座標　offsetParent　屬性指定的父座

預約下載 | 《Serverless 開發速查手冊》全新上線

《Serverless 開發速查手冊》實用型電子書即將開放下載，本書由阿里云云原生 Serverless 團隊全新制作，帶你從 0 入門瞭解 Serverless 架構及應用場景。本書聚焦開發者及企業 Serverless 落地問題，通過深度剖析案例

你不知道的Python字串速查表

在Python的應用實踐過程中，經常會遇到字串使用的問題，我花了點時間，專門整理了 Python 關於 string 的知識，主要內容

Spring速查手冊(三)——Spring+JDBC

Spring的資料訪問異常體系 JDBC提供了SQLException異常，它是一個檢查異常，必須要捕獲。

Spring速查手冊(二)——Bean的作用域

Bean的四種作用域單例(Singleton)：整個應用中，只建立一個bean。原型(Prototype)：每次注入或請求要給bean的時候都建立一個新的bean。

Spring速查手冊——Bean裝配

Spring提供三種Bean的裝配方式，分別是： 1. 自動裝配Bean 2. 在Java中裝配Bean 3. 在XML中裝配Bean

Python之Pandas 相關操作03---常用方法總結速查

在這個速查手冊中，我們使用如下縮寫： df：任意的Pandas DataFrame物件 s：任意的Pandas Series物件

Linux 主要目錄速查表——Python

/：根目錄，一般根目錄下只存放目錄，在 linux 下有且只有一個根目錄，所有的東西都是從這裡開始/bin、/usr/bin：可執行二進位制檔案的目錄，如常用的命令 ls、tar、mv、cat 等

Python pandas庫中的isnull()詳解

問題描述 python的pandas庫中有一個十分便利的isnull()函式，它可以用來判斷缺失值，我們通過幾個例子學習它的使用方法。

Python Pandas 轉換unix時間戳方式

使用pandas自帶的pd.to_datetime把 unix 時間戳轉為時間時預設是轉換為 GMT標準時間

Python pandas自定義函式的使用方法示例

本文例項講述了Python pandas自定義函式的使用方法。分享給大家供大家參考，具體如下：

Python pandas RFM模型應用例項詳解

本文例項講述了Python pandas RFM模型應用。分享給大家供大家參考，具體如下：

python pandas速查手冊

pandas介面速查

匯入資料

匯出資料

建立測試物件

檢視、檢查資料

資料選取

資料清理

資料處理：Filter、Sort和GroupBy

資料合併

pandas增刪改查

增：新增新行或增加新列

刪：刪除表、觀測行或變數列

改：修改原始記錄的值

相關推薦