Python學習之Excel處理-3-之pandas
阿新 • • 發佈:2021-01-21
本文記錄用pandas對Excel 進行處理,首先我們從最基本的操作開始。Let’s go!
-
我們先建立一個Excel,名字叫Test.xlsx,用來演示,如下圖所示:
- 讓我們用程式碼對她進行操作吧
import pandas as pd # 引入模組
dataExcel = pd.read_excel("Test.xlsx") # 讀取建立好的檔案
print(dataExcel.shape) # 列印幾行幾列
列印結果如下:(3, 5),這裡的意思是三行五列,但是我們可以看到,建立的檔案是四行五列,這是因為第一行預設為表頭。
- 我們可以把表頭打印出來:
print(dataExcel.columns) # 打印表頭
結果:Index(['列1', '列2', '列3', '列4', '列5'], dtype='object')
- 如果我們的第一行不是表頭,則我們可以有以下操作:
dataExcel = pd.read_excel("Test.xlsx", header=None) # 沒有表頭的情況下,自己加一個需要手動加一個 dataExcel.columns = ("趙", "錢", "尹", "耿", "張",) # 自己加入的表頭 dataExcel.to_excel("copy.xlsx") # 儲存到另一個檔案中
結果如下圖所示:
可以看到程式自動加了Index,不過沒關係,如果不想要則可以將其去掉。
加入以下程式碼去掉自動加上的Index,並且指定那一列為Index
dataExcel.set_index("趙", inplace=True) # 將表格中自動生成的Index去掉,並指定那一列為Index
可以看到以下結果:
- 在讀取檔案時,我們可以把第一列作為Index
dataExcel = pd.read_excel("Test.xlsx", index_col="列1") # 將第幾列作為Index,這裡是列1,也可以是其他列
- 其他小知識點:
print(dataExcel.head(2)) # 列印前兩行
print(dataExcel.tail(2)) # 列印後兩行