關於pandas 專項學習01

阿新 • • 發佈：2018-11-05

一 Pandas 理論基礎

1 Pandas庫是利用python進行資料分析時最為重要的一個庫，前面介紹的Numpy庫主要是為資料分析提供科學計算方面的數學運算函式等，而Pandas庫則是對所需分析資料進行整理以便友好地展現給資料分析人員，從而更好的使用Numpy來進行數學統計處理。

在邏輯順序上，Pandas庫資料整理在前，Numpy庫資料處理在後。

2 Pandas庫提供的資料結構基本上能夠滿足進行資料分析時的正常需要，來看看它的部分功能：

（1）利用不同的軸編號對資料進行運算；

（2）靈活查詢處理缺失資料；

（3）整合時間序列功能；

（4）處理時間序列資料、非時間序列資料的資料結構；

（5）具備按軸自動或顯示資料對其功能的資料結構，以防止許多由於資料未對齊以及來自不同資料來源（索引方式不同）的資料而導致的常見錯誤；

（6）合併及其他出現在常見資料庫中的關係型運算。

3 使用Pandas庫時不得不掌握這兩種主要資料結構：Series及DataFrame，上面所提及到的功能都是基於這兩種資料結構來實現的，當然了，功能包括但不限於這些功能。小編以後分享的文章內容也是給予這兩種資料結構。

簡單認識一下它們：

Series是一種類似於一維陣列的物件，就像前面所分享的Numpy一維陣列的形式，但是和它不同的是，Series不僅包括資料本身，同時還包括與資料相對應的資料標籤（可以理解為是每一個元素的位置索引）。類似帶有鍵值對（索引和資料）的列表

In [106]: Series(['a','b','c','d'])

Out[106]:

0 a

1 b

2 c

3 d

dtype: object

以上程式碼示例的是一個簡單的Series，右側的abcd為資料本身，而左側的1234就是與之相對應的資料標籤。

DataFrame是一個表格型的資料結構，類似於我們常見的excel表格，資料呈行列分佈，同時與之對應的也有行索引列索引，不同列或同列中的元素可以是不同的資料型別，DataFrame資料結構其實是由多個Series組成的。

In [110]: data = {'age':[12,11,13,14],

　　 ...: 'gender':[1,0,'男','女']}

In [111]: df = DataFrame(data)

In [112]: df

Out[112]:

age gender

0 12 1

1 11 0

2 13 男

3 14 女

以上程式碼是一個簡單的DataFrame，它是由字典轉化而建立的，資料內容只是為了解釋說明概念中的一些問題，可以看出，列之間及其內部的資料元素型別是不同的。

如果你想學習Pandas，建議先看兩個網站。

（1）官網：Python Data Analysis Library

（2）十分鐘入門Pandas：10 Minutes to pandas

在第一次學習Pandas的過程中，你會發現你需要記憶很多的函式和方法。所以在這裡我們彙總一下Pandas官方文件中比較常用的函式和方法，以方便大家記憶。同時，我們提供一個PDF版本，方便大家列印。pandas-cheat-sheet.pdf

二關鍵縮寫和包匯入

在這個速查手冊中，我們使用如下縮寫：

df：任意的Pandas DataFrame物件
s：任意的Pandas Series物件

同時我們需要做如下的引入：

import pandas as pd
import numpy as np

匯入資料

pd.read_csv(filename)：從CSV檔案匯入資料
pd.read_table(filename)：從限定分隔符的文字檔案匯入資料
pd.read_excel(filename)：從Excel檔案匯入資料
pd.read_sql(query, connection_object)：從SQL表/庫匯入資料
pd.read_json(json_string)：從JSON格式的字串匯入資料
pd.read_html(url)：解析URL、字串或者HTML檔案，抽取其中的tables表格
pd.read_clipboard()：從你的貼上板獲取內容，並傳給read_table()
pd.DataFrame(dict)：從字典物件匯入資料，Key是列名，Value是資料

匯出資料

df.to_csv(filename)：匯出資料到CSV檔案
df.to_excel(filename)：匯出資料到Excel檔案
df.to_sql(table_name, connection_object)：匯出資料到SQL表
df.to_json(filename)：以Json格式匯出資料到文字檔案

建立測試物件

pd.DataFrame(np.random.rand(20,5))：建立20行5列的隨機陣列成的DataFrame物件
pd.Series(my_list)：從可迭代物件my_list建立一個Series物件
df.index = pd.date_range('1900/1/30', periods=df.shape[0])：增加一個日期索引

檢視、檢查資料

df.head(n)：檢視DataFrame物件的前n行
df.tail(n)：檢視DataFrame物件的最後n行
df.shape()：檢視行數和列數
http://df.info()：檢視索引、資料型別和記憶體資訊
df.describe()：檢視數值型列的彙總統計
s.value_counts(dropna=False)：檢視Series物件的唯一值和計數
df.apply(pd.Series.value_counts)：檢視DataFrame物件中每一列的唯一值和計數

資料選取

df[col]：根據列名，並以Series的形式返回列
df[[col1, col2]]：以DataFrame形式返回多列
s.iloc[0]：按位置選取資料
s.loc['index_one']：按索引選取資料
df.iloc[0,:]：返回第一行
df.iloc[0,0]：返回第一列的第一個元素

資料清理

df.columns = ['a','b','c']：重新命名列名
pd.isnull()：檢查DataFrame物件中的空值，並返回一個Boolean陣列
pd.notnull()：檢查DataFrame物件中的非空值，並返回一個Boolean陣列
df.dropna()：刪除所有包含空值的行
df.dropna(axis=1)：刪除所有包含空值的列
df.dropna(axis=1,thresh=n)：刪除所有小於n個非空值的行
df.fillna(x)：用x替換DataFrame物件中所有的空值
s.astype(float)：將Series中的資料型別更改為float型別
s.replace(1,'one')：用‘one’代替所有等於1的值
s.replace([1,3],['one','three'])：用'one'代替1，用'three'代替3
df.rename(columns=lambda x: x + 1)：批量更改列名
df.rename(columns={'old_name': 'new_ name'})：選擇性更改列名
df.set_index('column_one')：更改索引列
df.rename(index=lambda x: x + 1)：批量重新命名索引

資料處理：Filter、Sort和GroupBy

df[df[col] > 0.5]：選擇col列的值大於0.5的行
df.sort_values(col1)：按照列col1排序資料，預設升序排列
df.sort_values(col2, ascending=False)：按照列col1降序排列資料
df.sort_values([col1,col2], ascending=[True,False])：先按列col1升序排列，後按col2降序排列資料
df.groupby(col)：返回一個按列col進行分組的Groupby物件
df.groupby([col1,col2])：返回一個按多列進行分組的Groupby物件
df.groupby(col1)[col2]：返回按列col1進行分組後，列col2的均值
df.pivot_table(index=col1, values=[col2,col3], aggfunc=max)：建立一個按列col1進行分組，並計算col2和col3的最大值的資料透視表
df.groupby(col1).agg(np.mean)：返回按列col1分組的所有列的均值
data.apply(np.mean)：對DataFrame中的每一列應用函式np.mean
data.apply(np.max,axis=1)：對DataFrame中的每一行應用函式np.max

資料合併

df1.append(df2)：將df2中的行新增到df1的尾部
df.concat([df1, df2],axis=1)：將df2中的列新增到df1的尾部
df1.join(df2,on=col1,how='inner')：對df1的列和df2的列執行SQL形式的join

資料統計

df.describe()：檢視資料值列的彙總統計
df.mean()：返回所有列的均值
df.corr()：返回列與列之間的相關係數
df.count()：返回每一列中的非空值的個數
df.max()：返回每一列的最大值
df.min()：返回每一列的最小值
df.median()：返回每一列的中位數
df.std()：返回每一列的標準差

關於pandas 專項學習01

二關鍵縮寫和包匯入

匯入資料

匯出資料

建立測試物件

檢視、檢查資料

資料選取

資料清理

資料處理：Filter、Sort和GroupBy

資料合併

資料統計

關於pandas 專項學習01

18-09-26 pandas 基礎學習01

Pandas DataFrame學習筆記

學習01

Java設計模式學習01——單例模式(轉)

Pandas基礎學習與Spark Python初探

bootstrap學習 ——01

java並發工具學習 01 進程與線程基礎

angular學習-01,使用第三方庫（jquery...)

機器學習01-kNN鄰近算法

jQuery源碼逐行分析學習01(jQuery的框架結構簡化)

cocos creator學習01 關於cocos creator 通過get 和post連接node.js服務器的初步探索

Hbase學習01

Java——多線程編程學習/01

零基礎學習01（數據類型）

maven學習01

Python之面向對象-基礎語法學習-01

node.js 學習01

Java學習-----01.Java基礎

pandas的學習5-導入導出數據

關於pandas 專項學習01

二 關鍵縮寫和包匯入

匯入資料

匯出資料

建立測試物件

檢視、檢查資料

資料選取

資料清理

資料處理：Filter、Sort和GroupBy

資料合併

資料統計

相關推薦

二關鍵縮寫和包匯入