嘗試在部落格園上新增洛天依live2d看板娘失敗（半成品）

阿新 • • 發佈：2020-07-20

本文始發於個人公眾號：TechFlow，原創不易，求個關注

今天是pandas資料處理專題的第四篇文章，我們一起來聊聊DataFrame中的索引。

上一篇文章當中我們介紹了DataFrame資料結構當中一些常用的索引的使用方法，比如iloc、loc以及邏輯索引等等。今天的文章我們來看看DataFrame的一些基本運算。

資料對齊

我們可以計算兩個DataFrame的加和，pandas會自動將這兩個DataFrame進行資料對齊，如果對不上的資料會被置為Nan（not a number）。

首先我們來建立兩個DataFrame：

import numpy as np
import pandas as 
 pd

df1 = pd.DataFrame(np.arange(9).reshape((3, 3)), columns=list('abc'), index=['1', '2', '3'])

df2 = pd.DataFrame(np.arange(12).reshape((4, 3)), columns=list('abd'), index=['2', '3', '4', '5'])

得到的結果和我們設想的一致，其實只是通過numpy陣列建立DataFrame，然後指定index和columns而已，這應該算是很基礎的用法了。

然後我們將兩個DataFrame相加，會得到：

我們發現pandas將兩個DataFrame加起來合併了之後，凡是沒有在兩個DataFrame都出現的位置就會被置為Nan

。這其實是很有道理的，實際上不只是加法，我們可以計算兩個DataFrame的加減乘除的四則運算都是可以的。如果是計算兩個DataFrame相除的話，那麼除了對應不上的資料會被置為Nan之外，除零這個行為也會導致異常值的發生（可能不一定是Nan，而是inf）。

fill_value

如果我們要對兩個DataFrame進行運算，那麼我們當然不會希望出現空值。這個時候就需要對空值進行填充了，我們直接使用運算子進行運算是沒辦法傳遞引數進行填充的，這個時候我們需要使用DataFrame當中為我們提供的算術方法。

DataFrame當中常用的運算子有這麼幾種：

add、sub、div這些我們都很好理解，那麼這裡的radd、rsub方法又是什麼意思呢，為什麼前面要加上一個r呢？

看起來費解，但是說白了一文不值，radd是用來翻轉引數的。舉個例子，比如說我們希望得到DataFrame當中所有元素的倒數，我們可以寫成1 / df。由於1本身並不是一個DataFrame，所以我們不能用1來呼叫DataFrame當中的方法，也就不能傳遞引數，為了解決這種情況，我們可以把1 / df寫成df.rdiv(1)，這樣我們就可以在其中傳遞引數了。

由於在算除法的過程當中發生了除零，所以我們得到了一個inf，它表示無窮大。

我們可以在add、div這些方法當中傳入一個fill_value的引數，這個引數可以在計算之前對於一邊出現缺失值的情況進行填充。也就是說對於對於只在一個DataFrame中缺失的位置會被替換成我們指定的值，如果在兩個DataFrame都缺失，那麼依然還會是Nan。

我們對比下結果就能發現了，相加之後的(1, d), (4, c)以及(5, c)的位置都是Nan，因為df1和df2兩個DataFrame當中這些位置都是空值，所以沒有被填充。

fill_value這個引數在很多api當中都有出現，比如reindex等，用法都是一樣的，我們在查閱api文件的時候可以注意一下。

那麼對於這種填充了之後還出現的空值我們應該怎麼辦呢？難道只能手動找到這些位置進行填充嗎？當然是不現實的，pandas當中還為我們提供了專門解決空值的api。

空值api

在填充空值之前，我們首先要做的是發現空值。針對這個問題，我們有isna這個api，它會返回一個bool型的DataFrame，DataFrame當中的每一個位置表示了原DataFrame對應的位置是否是空值。

dropna

當然只是發現是否是空值肯定是不夠的，我們有時候會希望不要空值的出現，這個時候我們可以選擇drop掉空值。針對這種情況，我們可以使用DataFrame當中的dropna方法。

我們發現使用了dropna之後，出現了空值的行都被拋棄了。只保留了沒有空值的行，有時候我們希望拋棄是的列而不是行，這個時候我們可以通過傳入axis引數進行控制。

這樣我們得到的就是不含空值的列，除了可以控制行列之外，我們還可以控制執行drop的嚴格程度。我們可以通過how這個引數來判斷，how支援兩種值傳入，一種是'all'，一種是'any'。all表示只有在某一行或者是某一列全為空值的時候才會拋棄，any與之對應就是隻要出現了空值就會拋棄。預設不填的話認為是any，一般情況下我們也用不到這個引數，大概有個印象就可以了。

fillna

pandas除了可以drop含有空值的資料之外，當然也可以用來填充空值，事實上這也是最常用的方法。

我們可以很簡單地傳入一個具體的值用來填充：

fillna會返回一個新的DataFrame，其中所有的Nan值會被替換成我們指定的值。如果我們不希望它返回一個新的DataFrame，而是直接在原資料進行修改的話，我們可以使用inplace引數，表明這是一個inplace的操作，那麼pandas將會在原DataFrame上進行修改。

df3.fillna(3, inplace=True)

除了填充具體的值以外，我們也可以和一些計算結合起來算出來應該填充的值。比如說我們可以計算出某一列的均值、最大值、最小值等各種計算來填充。fillna這個函式不僅可以使用在DataFrame上，也可以使用在Series上，所以我們可以針對DataFrame中的某一列或者是某些列進行填充：

除了可以計算出均值、最大最小值等各種值來進行填充之外，還可以指定使用缺失值的前一行或者是後一行的值來填充。實現這個功能需要用到method這個引數，它有兩個接收值，ffill表示用前一行的值來進行填充，bfill表示使用後一行的值填充。

我們可以看到，當我們使用ffill填充的時候，對於第一行的資料來說由於它沒有前一行了，所以它的Nan會被保留。同樣當我們使用bfill的時候，最後一行也無法填充。

總結

今天的文章當中我們主要介紹了DataFrame的一些基本運算，比如最基礎的四則運算。在進行四則運算的時候由於DataFrame之間可能存在行列索引不能對齊的情況，這樣計算得到的結果會出現空值，所以我們需要對空值進行處理。我們可以在進行計算的時候通過傳入fill_value進行填充，也可以在計算之後對結果進行fillna填充。

在實際的運用當中，我們一般很少會直接對兩個DataFrame進行加減運算，但是DataFrame中出現空置是家常便飯的事情。因此對於空值的填充和處理非常重要，可以說是學習中的重點，大家千萬注意。

今天的文章到這裡就結束了，如果喜歡本文的話，請來一波素質三連，給我一點支援吧（關注、在看、點贊）。

本文使用 mdnice 排版

嘗試在部落格園上新增洛天依live2d看板娘失敗（半成品）

資料對齊

fill_value

空值api

dropna

fillna

總結

嘗試在部落格園上新增洛天依live2d看板娘失敗（半成品）

部落格園文章新增目錄

【Typora + 部落格園】如何高效的在部落格園上編寫MD格式的部落格

部落格園上傳markdown格式文章

部落格園如何新增好看的js動畫效果

Typora筆記釋出到部落格園上--dotnet-cnblog

如何高效的在部落格園上編寫MD格式的部落格（外掛pycnblog，推薦）

給你的部落格園新增一隻萌萌的洛天依吧！（live2d-自制v3版本模型）

在部落格園博文中新增自定義右鍵選單的方法詳解

上傳python筆記，看看部落格園的編輯器的效果

部落格園新增蘿莉小人

部落格園markdown上傳檔案及圖片

部落格園新增頁首導航選單

部落格園新增目錄排版

部落格園bug破解：不申請部落格後臺js許可權,直接用上JavaScript-myblogplus 第四期慕舲原創部落格園破解：不申請部落格後臺js許可權,直接用上JavaScript-myblogplus 第四期慕舲原創

為部落格園markdown程式碼塊新增摺疊

【轉載】上傳Markdown檔案內的本地圖片至部落格園

部落格園樣式美化：給部落格新增一個音樂播放器---轉載

部落格園 Markdown 圖片本地上傳工具釋出新版了

部落格園新增目錄生成

嘗試在部落格園上新增洛天依live2d看板娘失敗（半成品）

資料對齊

fill_value

空值api

dropna

fillna

總結

相關推薦