pandas模組篇(之三）

阿新 • • 發佈：2020-09-08

今日內容概要

目標:將Pandas儘量結束

如何讀取外部excel檔案資料到DataFrame中
針對DataFrame的常用資料操作
索引與切片
操作DataFrame的欄位名稱
時間物件序列操作
資料分組與聚合
練習題

今日內容詳細

如何讀取外部excel檔案資料到DataFrame中

df = pd.read_csv('douban_movie.csv')  # 由於當前檔案跟excel檔案在同一個目錄下所以可以直接寫檔名
# 如果不在同一個路徑下 那麼需要輸入excel檔案的絕對路徑
# '''
# 絕對路徑
#     類似於全球具體座標，任何人拿到該座標都可以查詢
# 相對路徑
#     相對於一個參照物，並不是所有人都可以根據該座標找到
# '''
df


# 在讀取檔案的時候還可以自定義列
df1 = pd.read_csv('douban_movie.csv',index_col='產地') 
# df1.set_index('型別')
df1
# 都是用來指定讀取出來的excel資料的左側行名稱(行名稱必須是表格中存在的)

# 將之前設定的行索引取消
df1.reset_index()

基本操作

# 指定看前面多少條
df.head(5)
名字	投票人數	型別	產地	上映時間	時長	年代	評分	首映地點
0	肖申克的救贖	692795.0	劇情/犯罪	美國	1994-09-10 00:00:00	142.0	1994	9.6	多倫多電影節
1	控方證人	42995.0	劇情/懸疑/犯罪	美國	1957-12-17 00:00:00	116.0	1957	9.5	美國
2	美麗人生	327855.0	劇情/喜劇/愛情	義大利	1997-12-20 00:00:00	116.0	1997	9.5	義大利
3	阿甘正傳	580897.0	劇情/愛情	美國	1994-06-23 00:00:00	142.0	1994	9.4	洛杉磯首映
4	霸王別姬	478523.0	劇情/愛情/同性	中國大陸	1993-01-01 00:00:00	171.0	1993	9.4	香港
        
# 檢視尾部指定條數的資料
df.tail(5)

# 檢視資料條數
len(df)
38735

# 檢視資料的行列個數
df.shape
(38735, 9)

# 檢視行索引
df.index
RangeIndex(start=0, stop=38735, step=1)

# 檢視列欄位
df.columns
Index(['名字', '投票人數', '型別', '產地', '上映時間', '時長', '年代', '評分', '首映地點'], dtype='object')

資料匯出

# 將DataFrame匯出excel檔案
df.to_csv('db1.csv')  # 預設index=True 自動將DataFrame的行索引也匯出


df.to_csv('db2.csv',index=False)  # 忽略行索引

索引與切片

DataFrame也是由行索引和列索引，也可以通過標籤和位置兩種方法進行
方式1
	兩個中括號，先取列再取行  df['A'][0]
方式2
	使用loc/iloc屬性:一箇中括號逗號隔開，先取行再取列
   	都是左側
    
df.loc[0:5]
名字	投票人數	型別	產地	上映時間	時長	年代	評分	首映地點
0	肖申克的救贖	692795.0	劇情/犯罪	美國	1994-09-10 00:00:00	142.0	1994	9.6	多倫多電影節
1	控方證人	42995.0	劇情/懸疑/犯罪	美國	1957-12-17 00:00:00	116.0	1957	9.5	美國
2	美麗人生	327855.0	劇情/喜劇/愛情	義大利	1997-12-20 00:00:00	116.0	1997	9.5	義大利
3	阿甘正傳	580897.0	劇情/愛情	美國	1994-06-23 00:00:00	142.0	1994	9.4	洛杉磯首映
4	霸王別姬	66666666.0	劇情/愛情/同性	中國大陸	1993-01-01 00:00:00	171.0	1993	9.4	香港
5	泰坦尼克號	157074.0	劇情/愛情/災難	美國	2012-04-10 00:00:00	194.0	2012	9.4	中國大陸
df.iloc[0:5]
名字	投票人數	型別	產地	上映時間	時長	年代	評分	首映地點
0	肖申克的救贖	692795.0	劇情/犯罪	美國	1994-09-10 00:00:00	142.0	1994	9.6	多倫多電影節
1	控方證人	42995.0	劇情/懸疑/犯罪	美國	1957-12-17 00:00:00	116.0	1957	9.5	美國
2	美麗人生	327855.0	劇情/喜劇/愛情	義大利	1997-12-20 00:00:00	116.0	1997	9.5	義大利
3	阿甘正傳	580897.0	劇情/愛情	美國	1994-06-23 00:00:00	142.0	1994	9.4	洛杉磯首映
4	霸王別姬	66666666.0	劇情/愛情/同性	中國大陸	1993-01-01 00:00:00	171.0	1993	9.4	香港

資料操作

df['名字']  # 展示形式是Series

df[['名字']]  # 用中括號擴一下就會變成表格的形式展示

# 一次性獲取多個列
df[['名字','評分','型別']]

# 切片獲取資料條數
df[0:10]

# 獲取指定資料
df.at[4,'名字']  # at['行索引值','列名稱']
# 修改指定資料
df.at[4,'名字'] = '愛情動作科幻大混合'
# 利用關鍵字指定索引
df.loc[1].at['名字']


# 切片之後獲取指定的列資料
df[1:5][['名字','型別','年代']]


# 資料快速篩選
df[(df.評分 > 8.5) & (df.評分 < 9.0)]

資料自定義展示

>>> df = pd.DataFrame({
...     'col1': ['A', 'A', 'B', np.nan, 'D', 'C'],
...     'col2': [2, 1, 9, 8, 7, 4],
...     'col3': [0, 1, 9, 4, 2, 3],
... })
>>> df
    col1 col2 col3
0   A    2    0
1   A    1    1
2   B    9    9
3   NaN  8    4
4   D    7    2
5   C    4    3

Sort by col1
>>> df.sort_values(by=['col1'])
    col1 col2 col3
0   A    2    0
1   A    1    1
2   B    9    9
5   C    4    3
4   D    7    2
3   NaN  8    4

Sort by multiple columns

>>> df.sort_values(by=['col1', 'col2'])
    col1 col2 col3
1   A    1    1
0   A    2    0
2   B    9    9
5   C    4    3
4   D    7    2
3   NaN  8    4
Sort Descending

>>> df.sort_values(by='col1', ascending=False)
    col1 col2 col3
4   D    7    2
5   C    4    3
2   B    9    9
0   A    2    0
1   A    1    1
3   NaN  8    4
Putting NAs first

>>> df.sort_values(by='col1', ascending=False, na_position='first')
    col1 col2 col3
3   NaN  8    4
4   D    7    2
5   C    4    3
2   B    9    9
0   A    2    0
1   A    1    1

# 後面還可以對排序之後的結果篩選
df.sort_values(['列名1','列名2'],ascending=True)[['目標列1','目標列2']]

操作列

df.rename(column={'舊列名稱':'新列名稱'},inplace=True)
# 能修改 但是會報個錯誤 可以新增下列配置
pd.set_option('mode.chained_assignment',None)


# 建立新的列
df['新列名稱']=df.列名稱/(df.列名稱1+df.列名稱2)

# 自定義位置
df.insert(3,'新列名稱',新資料)

操作行

# 方式1 append
>>> df = pd.DataFrame([[1, 2], [3, 4]], columns=list('AB'))
>>> df
   A  B
0  1  2
1  3  4
>>> df2 = pd.DataFrame([[5, 6], [7, 8]], columns=list('AB'))

>>> df.append(df2)
   A  B
0  1  2
1  3  4
0  5  6
1  7  8
With `ignore_index` set to True:
    
>>> df.append(df2, ignore_index=True)
   A  B
0  1  2
1  3  4
2  5  6
3  7  8



# 方式2 concat功能更強大  可以拼接Series和DataFrame
pd.concat([res,df])
pd.concat([res,df],ignore_index=True)
'''
本質其實就相當於拼接表格資料
'''

pandas模組篇(之三）

今日內容概要目標:將Pandas儘量結束如何讀取外部excel檔案資料到DataFrame中針對DataFrame的常用資料操作

pandas模組篇（之二）

今日內容概要布林選擇器索引資料對齊資料操作(增出改查) 算術方法 DataFrame(Excel表格資料)

java提高篇（三）-----理解java的三大特性之多型

面向物件程式設計有三大特性：封裝、繼承、多型。封裝隱藏了類的內部實現機制，可以在不影響使用的情況下改變類的內部結構，同時也保護了資料。對外界而已它的內部細節是隱藏的，暴露給外界的只是它的訪問方法。

pandas模組篇（終章）及初識mataplotlib

今日內容概要時間序列針對表格資料的分組與聚合操作其他函式補充(apply) 練習題(為了加深對DataFrame操作的印象)

作業系統之基礎篇（三）

作業系統的檔案管理檔案的邏輯結構邏輯結構的檔案型別有結構檔案檔案內容由定長記錄和可變長記錄組成

AI 學習之路——輕鬆初探 Python 篇（三）

這是「AI 學習之路」的第 3 篇，「Python 學習」的第 2 篇 Python 字串使用和 C 語言比較類似，但還有一些我們值得注意的地方需要關注，用這篇文章來幫助大家掌握 Python 的字串吧！

深入理解java併發程式設計基礎篇（三）-------volatile

一、前言在上一篇，我們研究了Java記憶體模型，並且知道Java記憶體模型的概念以及作用，圍繞著原子性、可見性、有序性進行了簡單的概述，那麼在這一篇我們首先會介紹volatile關鍵字的基礎認知，然後深入的去解析

JS面向物件程式設計基礎篇（三）繼承操作例項詳解

本文例項講述了JS面向物件程式設計繼承操作。分享給大家供大家參考，具體如下：

java演算法篇之三：連結串列

1. 簡介前面已經實現了動態陣列、棧、佇列三種線性資料結構，但其底層都是依託靜態陣列，靠resize解決固定容量問題。

2020最新版Springcloud-Alibaba ZooKeeper篇（三）

一. 安裝Zookeeper zk的安裝過程什麼的就不廢話了,這裡有我之前安裝的分散式的一個zk,可以參照下zk叢集安裝,本篇不再強調分散式,而是使用zk作為服務中心,大家可以不用配zk叢集,用單機一樣的~

Python基礎學習篇（三）

學習教材採用圖靈程式設計叢書《Python程式設計從入門到實踐》今日的學習包括類及相關操作，檔案儲存，異常處理。

Prometheus監控神器-Kubernetes篇（三）

在Kubernetes中手動方式部署Prometheus聯邦。當我們有多個Kubernetes叢集的時候，這個時候就需要需要指標彙總的需求了，如上圖一樣，我們假定在外部部署一個Prometheus的Federate，然後去採集當前k8s中的kube-sy

VoIP語音通話研究【進階篇（三）：opensips安裝】

為了研究VoIP的通話容量，保證交換系統的可伸縮性，需要組建叢集，比較能想到的，就是opensips或者Kamailio，他們結構比較類似，使用習慣也比較類似，我用的是opensips，沒有深入研究kamailio。今天簡單介紹下opensi

C# Stream篇（三） -- TextWriter 和 StreamWriter

TextWriter 和 StreamWriter 目錄：為何介紹TextWriter? TextWriter的構造,常用屬性和方法 IFormatProvider的簡單介紹

[LeetCode] 437. Path Sum Ⅲ（路徑和之三）

Difficulty: Medium Related Topics: Tree Link: https://leetcode.com/problems/path-sum-iii/ Description You are given a binary tree in which each node contains an integer value.

JVM的藝術—類載入器篇（三）

JVM的藝術—類載入器篇（三）引言今天我們繼續來深入的剖析類載入器的內容。上篇文章我們講解了類載入器的雙親委託模型、全盤委託機制、以及類載入器雙親委託模型的優點、缺點等內容，沒看過的小夥伴請加關注。在公

Redis快取篇（三）快取汙染

上一講介紹了快取滿了，通過記憶體淘汰機制來淘汰掉資料。如果有的資料一直滯留在快取中，但又沒有應用使用，時間長了，就可能會佔據大部分的快取空間。

Redis效能篇（三）Redis關鍵系統配置：如何應對Redis變慢

Redis被廣泛使用的一個很重要的原因是它的高效能。因此我們必要要重視所有可能影響Redis效能的因素、機制以及應對方案。影響Redis效能的五大方面的潛在因素，分別是：

JS學習篇（三）——引用型別篇

技術標籤：JS Array 建立陣列的基本方式有兩種：第一種是利用Array建構函式 var color = new Array();

智慧手機 UI 發展史——三星篇（三）：逐漸完善的One UI（多圖殺貓）

在本人釋出在IT號之前的文章中，我們回顧了TouchWiz和Samsung Experience的發展。傳送門：

pandas模組篇(之三）

今日內容概要

今日內容詳細

如何讀取外部excel檔案資料到DataFrame中

基本操作

資料匯出

索引與切片

資料操作

資料自定義展示

操作列

操作行

相關推薦