Python DataFrame資料針對內容的索引操作總結

阿新 • • 發佈：2021-08-11

在平時學習和建模過程中，處理Excel文件是非常常見的工作，而Excel在Python眼中就是一個簡單的datafram型別的資料

1、讀取Excel檔案的資料

1 import pandas as pd
2 import numpy as np
3 
4 # 函式read_excel用來讀取Excel文件為dataframe型別，引數sheet_name可以是工作簿中工作表的索引(從0開始)，也可以是工作表的名字
5 data = pd.read_excel("enterprise123_data.xlsx", sheet_name=1)      # 此處讀取第二個工作表

函式read_excel返回的直接就是一個dataframe型別的資料

2、對於內容的索引

首先看一下Excel表格內的內容

此處我們想索引企業代號為E1的企業的價稅合計所在列的資料，用dataframe資料的索隱函式loc來實現，實力操作如下：

price_tax_sum = data.loc[data['企業代號']=='E1', '價稅合計']

選取的E1企業的價稅合計資料儲存在變數price_tax_sum中，price_tax_sum同時也是一個dataframe型別的資料

使用price_tax_sum中元素的值：

array = price_tax_sum.values #將元素中的值賦給變數array，array為一個一維陣列

也可直接用dataframe型別的行列索引訪問price_tax_sum中的每個元素，但一般都是對資料處理都是大批處理，因此轉為陣列然後用for迴圈處理比較方便

3、如何大批量對不同企業代號的企業資料進行選取呢？

這裡要用到字串的格式化，因為不同企業的企業代號均為字串形式，不同在於E後面的數字不同

1 for i in range(1,124):
2     txt = "E{}"
3     price_tax_sum = data.loc[data['企業代號']==txt.format(i), '價稅合計']

程式碼中txt.format(i)就表示將資料 i 填充到字串txt中的{}內，這樣每一輪for迴圈得到的price_tax_sum就是不同企業的價稅合計資料，在迴圈體中即可對價稅合計資料進行操作

字串的格式化也可以支援多值索引，具體可自己CSDN，理解起來很簡單

4、總結一下dataframe型別中我經常需要用到的使用操作

（1）刪除dataframe中行和列的方法總結

刪除具體列：刪除工作表中“價稅合計”整列元素：

data = data.drop('價稅合計', axis=1)  # axis=1表示刪除的是列元素，函式引數為列索引名

刪除具體行：刪除E1企業的所有行：

data = data.drop('E1')      # axis=0或者不寫表示drop函式預設刪除行元素，函式引數為行索引名

刪除特定數值的行(最常用)：刪除發票狀態為作廢發票的行：

data = data[data['發票狀態'] == '作廢發票']

刪除/儲存包含某些字元、文字的行：

# 刪除發票狀態中包含“作廢”兩字的行
data = data[~data['發票狀態'].str.contains('作廢')]

# 儲存發票資訊中包含“有效”兩字的行，區別在於不要"~"
data = data[data['發票狀態'].str.contains('有效')]

（2）填充空值

# 刪除存在空值的行
data = data.dropna()

# 刪除存在空值的列
data = data.dropna(axis=1)

# 填充空值
data.fillna(3, inplace=True)        # inplace=True表示在原DataFrame上修改

# 結合一些計算出來的值進行填充
data.fillna(np.mean(data['價稅合計']), inplace=True)

對某些單元格滿足特定條件進行修改其值時，可利用for迴圈來批量處理

在每輪迴圈中用if判斷是否滿足條件，如滿足則修改成特定值

（3）兩大索隱函式loc和iloc的區別

loc——通過行標籤索引行資料

iloc——通過行號（為數字）索引行資料

iloc是按照行數取值，而loc按著index名取值

（4）更改索引值

# 直接給行、列索引賦值進行更改
data.columns = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
data.index = ['a', 'c', 'd']

Python DataFrame資料針對內容的索引操作總結

在平時學習和建模過程中，處理Excel文件是非常常見的工作，而Excel在Python眼中就是一個簡單的datafram型別的資料

Python常用資料型別之間的轉換總結

函式描述 int(x [,base]) 將x轉換為一個整數 long(x [,base] ) 將x轉換為一個長整數 float(x)

3-python資料分析-DataFrame級聯與合併操作鞏固之人口分析案例

需求匯入檔案，檢視原始資料將人口資料和各州簡稱資料進行合併將合併的資料中重複的abbreviation列進行刪除

007.PGSQL-python讀取txt檔案，將資料轉化為dataFrame,dataFrame資料插入到pgsql; dataframe去掉索引，指定列為索引；python讀取pgsql資料,讀取資料庫表導成excel

python讀取txt檔案，將資料轉化為dataFrame,dataFrame資料插入到pgsql 1.pd.io.sql.to_sql(dataframe,\'table_name\',con=conn,schema=\'w_analysis\',if_exists=\'append\')

Python 元組操作總結

Python的元組和列表類似，不同之處在於元組中的元素不能修改(因此元組又稱為只讀列表)，且元組使用小括號而列表使用中括號，如下:

Python逐行讀取檔案內容的方法總結

Python四種逐行讀取檔案內容的方法下面四種Python逐行讀取檔案內容的方法，分析了各種方法的優缺點及應用場景，以下程式碼在python3中測試通過， python2中執行部分程式碼已註釋，稍加修改即可。

Python資料結構dict常用操作程式碼例項

dict是python中的常用資料結構,應該儘量掌握其使用方法字典是另一種可變容器模型，且可儲存任意型別物件。

Python爬蟲爬取電影票房資料及圖表展示操作示例

本文例項講述了Python爬蟲爬取電影票房資料及圖表展示操作。分享給大家供大家參考，具體如下：

Python Json資料檔案操作原理解析

引言　　介面測試就是資料的測試，在測試之前，需要準備好測試資料，而測試資料可以用資料庫、excel、txt和csv方式，當然還有一種方式，那就是使用json檔案來儲存測試資料。常用的方式就是這些。

Python Dataframe常見索引方式詳解

建立一個示例資料框： import pandas as pd df = pd.DataFrame([[\'喬峰\',\'男\',95,\'降龍十八掌\',\'主角\'],[\'虛竹\',93,\'天上六陽掌\',[\'段譽\',92,\'六脈神劍\',[\'王語嫣\',\'女\',\'熟知武訣\',[\'包不