03 -2 numpy與pandas中處理丟失資料的理解與例項

阿新 • • 發佈：2018-12-17

引入三劍客

import numpy as np
import pandas as pd
from pandas import Series,DataFrame

處理丟失資料

1.有兩種丟失資料：

None: Python自帶的資料型別不能參與到任何計算中
np.nan(NaN): float型別能參與計算，但結果總是NaN

np.nan + 9            結果為：nan

2. np.nan（NaN）

陣列直接運算會得到nan，但可以使用np.nan*()函式來計算nan，此時視nan為0。

ndarr1 = np.array([1,2,3,np.nan])
ndarr1
np.sum(ndarr1)
結果為：
nan

np.nansum(ndarr1) # nan*()遇到nan會把nan當作0來處理
結果為：
6.0

Series和DataForm可以直接處理nan

s1 = Series([1,2,3,np.nan])
s1.sum() #Series 直接可以處理nan的情況
結果為：6.0

df1 = DataFrame([1,2,3,np.nan])
df1.sum() #DataFrame 直接可以處理nan的情況
結果為：
0    6.0
dtype: float64

3. pandas中的None與NaN

1) pandas中None與np.nan都視作np.nan

用randint建立一個5*5的DataFrame作為例子

Series 和 DataForm 如果遇到None 就會把 None 轉換成 numpy.nan

df1 = DataFrame(data=np.random.randint(0,20,size=(5,5)),columns=list("abcde"))
df1

a	b	c	d	e
0	18	18	4	10	6
1	6	12	8	8	4
2	5	15	18	2	2
3	2	18	10	16	14
4	14	13	2	10	14

使用DataFrame行索引與列索引修改一下DataFrame資料（弄出來一些None和NaN）

df1["b"][1] = None
df1["c"].iloc[2] = None
df1.iloc[2].loc["d"] = np.nan # 自己顯式地去設定nan不太好 大家平時不要這麼做
df1

a	b	c	d	e
0	18	18.0	4.0	10	6
1	6	NaN	8.0	8	4
2	5	15.0	NaN	2	2
3	2	18.0	10.0	16	14
4	14	13.0	2.0	10	14

2) pandas中None與np.nan的操作

isnull()
notnull()
dropna(): 過濾丟失資料
fillna(): 填充丟失資料

(1)判斷函式

isnull()
notnull()

df1.isnull() # 返回一個同樣形狀的DataFrame 如果是空這個位置就是True 否則就是False

a	b	c	d	e
0	False	False	False	False	False
1	False	True	False	False	False
2	False	False	True	False	False
3	False	False	False	False	False
4	False	False	False	False	False

df1.notnull() # 不是空值返回True 是空值就是False

a	b	c	d	e
0	True	True	True	True	True
1	True	False	True	True	True
2	True	True	False	True	True
3	True	True	True	True	True
4	True	True	True	True	True

配合any使用，可以檢視每一行是否存在空值可以控制axis來改變檢視方向

df1.isnull().any() # 預設看每一列 只要有True就是True
結果為：
a    False
b     True
c     True
d    False
e    False
dtype: bool

如果想看每一行的中有沒有空值可以改變axis

df1.isnull().any(axis=0) # axis 預設是 0 是豎直方向
df1.isnull().any(axis=1) # 通過這種方式 可以找到有空值的樣本
結果為：
0    False
1     True
2     True
3    False
4    False
dtype: bool

(2) 過濾函式

dropna()

可以選擇過濾的是行還是列（預設為行）

df1.dropna() # 如果有空值 就把整行都幹掉
df1.dropna(axis=0) # 預設是對行進行處理

a	b	c	d	e
0	18	18.0	4.0	10	6
3	2	18.0	10.0	16	14
4	14	13.0	2.0	10	14

# 如果不確定axis到底是橫還是豎 可以自己先建立一個假資料 試一試
df1.dropna(axis=1) # 對有空值的列進行處理

a	d	e
0	18	10	6
1	6	8	4
2	5	2	2
3	2	16	14
4	14	10	14

也可以選擇過濾的方式 how = ‘all’

df1.dropna(how="any") # 只要有空值 就幹掉

a	b	c	d	e
0	18	18.0	4.0	10	6
3	2	18.0	10.0	16	14
4	14	13.0	2.0	10	14

df1.dropna(how="all") # 這一行所有的值都是空值 才幹掉

a	b	c	d	e
0	18	18.0	4.0	10	6
1	6	NaN	8.0	8	4
2	5	15.0	NaN	2	2
3	2	18.0	10.0	16	14
4	14	13.0	2.0	10	14

df1.iloc[2] = np.nan
df1

a	b	c	d	e
0	18.0	18.0	4.0	10.0	6.0
1	6.0	NaN	8.0	8.0	4.0
2	NaN	NaN	NaN	NaN	NaN
3	2.0	18.0	10.0	16.0	14.0
4	14.0	13.0	2.0	10.0	14.0:

df1.dropna(how="all")

a	b	c	d	e
0	18.0	18.0	4.0	10.0	6.0
1	6.0	NaN	8.0	8.0	4.0
3	2.0	18.0	10.0	16.0	14.0
4	14.0	13.0	2.0	10.0	14.0

(3) 填充函式 Series/DataFrame

fillna()

可以指定value

df1.fillna(value=0) # 遇到空值 可以設定成我們制定的值

a	b	c	d	e
0	18.0	18.0	4.0	10.0	6.0
1	6.0	0.0	8.0	8.0	4.0
2	0.0	0.0	0.0	0.0	0.0
3	2.0	18.0	10.0	16.0	14.0
4	14.0	13.0	2.0	10.0	14.0

df1.fillna(value=10)

a	b	c	d	e
0	18.0	18.0	4.0	10.0	6.0
1	6.0	10.0	8.0	8.0	4.0
2	10.0	10.0	10.0	10.0	10.0
3	2.0	18.0	10.0	16.0	14.0
4	14.0	13.0	2.0	10.0	14.0

也可以選擇從前面找值來填充還是從後面找值來填充

pad / ffill 從前面找值來填充

backfill/ bfill 從後面找值來填充

df1.fillna(method="ffill")

a	b	c	d	e
0	18.0	18.0	4.0	10.0	6.0
1	6.0	18.0	8.0	8.0	4.0
2	6.0	18.0	8.0	8.0	4.0
3	2.0	18.0	10.0	16.0	14.0
4	14.0	13.0	2.0	10.0	14.0

df1.fillna(method="bfill")

a	b	c	d	e
0	18.0	18.0	4.0	10.0	6.0
1	6.0	18.0	8.0	8.0	4.0
2	2.0	18.0	10.0	16.0	14.0
3	2.0	18.0	10.0	16.0	14.0
4	14.0	13.0	2.0	10.0	14.0

雖然填充了值但並不影響df1原先的值，

a	b	c	d	e
0	18.0	18.0	4.0	10.0	6.0
1	6.0	NaN	8.0	8.0	4.0
2	NaN	NaN	NaN	NaN	NaN
3	2.0	18.0	10.0	16.0	14.0
4	14.0	13.0	2.0	10.0	14.0

還可以指定是在尋找值時候的軸線

df1.fillna(method="ffill",axis=0) # axis 預設是0 豎直找  前面已做過
df1.fillna(method="ffill",axis=1) # axis 1 水平找

a	b	c	d	e
0	18.0	18.0	4.0	10.0	6.0
1	6.0	6.0	8.0	8.0	4.0
2	NaN	NaN	NaN	NaN	NaN
3	2.0	18.0	10.0	16.0	14.0
4	14.0	13.0	2.0	10.0	14.0

還可以限定最多往前（往後）填充幾個NaN

df1["c"].iloc[1]=np.nan
df1

a	b	c	d	e
0	18.0	18.0	4.0	10.0	6.0
1	6.0	NaN	NaN	8.0	4.0
2	NaN	NaN	NaN	NaN	NaN
3	2.0	18.0	10.0	16.0	14.0
4	14.0	13.0	2.0	10.0	14.0

df1.fillna(method="ffill",limit=2) # 限制往前找幾個

a	b	c	d	e
0	18.0	18.0	4.0	10.0	6.0
1	6.0	18.0	4.0	8.0	4.0
2	6.0	18.0	4.0	8.0	4.0
3	2.0	18.0	10.0	16.0	14.0
4	14.0	13.0	2.0	10.0	14.0

對於DataFrame來說，還要選擇填充的軸axis。記住，對於DataFrame來說：

axis=0：index/行
axis=1：columns/列

使用limit來限定往後找幾個

axis 指定是橫著找還是豎著找

method 指定找前面還是找後面

注意：value引數是不能跟method引數共用的

df.fillna(method='bfill',axis=1,limit=1)

a	b	c	d	e
0	18.0	18.0	4.0	10.0	6.0
1	6.0	NaN	8.0	8.0	4.0
2	NaN	NaN	NaN	NaN	NaN
3	2.0	18.0	10.0	16.0	14.0
4	14.0	13.0	2.0	10.0	14.0

============================================

練習7：

簡述None與NaN的區別
假設張三李四參加模擬考試，但張三因為突然想明白人生放棄了英語考試，因此記為None，請據此建立一個DataFrame,命名為df3
老師決定根據用數學的分數填充張三的英語成績，如何實現？用李四的英語成績填充張三的英語成績？

============================================

03 -2 numpy與pandas中處理丟失資料的理解與例項

引入三劍客 import numpy as np import pandas as pd from pandas import Series,DataFrame 處理丟失資料 1.有兩種丟失資料： None: Python自帶的資料型別不能參與到任何計算中

python3：pandas（處理丟失資料）

處理丟失資料NaN主要有三種方法：pd.dropna，pd.fillna，pd.isnull 建立一個包含NaN（not a number）的資料。 import pandas as pd import numpy as np dates = pd.date_rang

03 -2 numpy與pandas中isnull()、notnull()、dropna()、fillna()處理丟失資料的理解與例項

引入三劍客 import numpy as np import pandas as pd from pandas import Series,DataFrame 處理丟失資料 1.有兩種丟失資料： None: Python自帶的資料型別不能參與到任何計算中

Python資料處理之（十三）Pandas 處理丟失資料

建立含 NaN 的矩陣有時候我們匯入或處理資料, 會產生一些空的或者是NaN資料,如何刪除或者是填補這些 NaN 資料就是我們今天所要提到的內容. 建立了一個6X4的矩陣資料並且把兩個位置置為空. >>> dates=pd.date_range('20181

3-6 用 Pandas 進行資料預處理：資料清洗與視覺化（版本：py3）

主要內容：格式轉換缺失資料異常資料資料標準化操作格式轉換如Python記錄時間的方式，不能夠直接實現減運算，就需要進行轉換 pandas.to_datetime 缺失資料忽略缺失資料直接標記利用平均值、最常出現值進行填充異常資料處

js中處理json Json物件與Json字串的轉化、JSON字串與Java物件的轉換

轉：https://www.cnblogs.com/zq-boke/p/5833387.html Json物件與Json字串的轉化、JSON字串與Java物件的轉換一.Json物件與Json字串的轉化 1.jQuery外掛支援的轉換方式：　　$.pars

在Pandas中處理NaN值

關於NaN值 -在能夠使用大型資料集訓練學習演算法之前，我們通常需要先清理資料, 也就是說，我們需要通過某個方法檢測並更正資料中的錯誤。 - 任何給定資料集可能會出現各種糟糕的資料，例如離群值或不正確的值，但是我們幾乎始終會遇到的糟糕資料型別是缺少值。

Spark與Pandas中DataFrame對比（詳細）

Pandas Spark 工作方式單機single machine tool，沒有並行機制parallelism 不支援Hadoop，處理大量資料有瓶頸分散式平行計算框架，內建並行機制parallelism，所有的資料和操作自動並行分佈在各個叢集結點上。以處

[轉]Spark與Pandas中DataFrame對比（詳細）

Pandas Spark 工作方式單機single machine tool，沒有並行機制parallelism 不支援Hadoop，處理大量資料有瓶頸分散式平行計算框架，內建並行機制parallelism，所有的資料和操作自動並行分佈在各個叢集結點上。以處理in-memory資料的方式處理distr

Python中numpy和pandas中axis淺談

在Python中軸是比較難懂概念，先從座標軸說起。 n 維空間裡有 n 個座標軸，並且座標軸互相垂直，每一個點相對於一條座標軸都有唯一的一個座標值。對同一條座標軸來說，座標值相同的點在同一個 n-1 維的“平面”上。任意取一個“平面”，我們就能定義“同一個座標軸上的點”

pandas（二）pandas處理丟失資料

Logout2-pandas_missing_values Last Checkpoint: 06/13/2018 (unsaved changes)Python 3 TrustedCodeMarkdo

Highcharts中處理座標軸資料過多的問題

昨天專案中遇到了highcharts這個元件，這次是對它記憶尤深，給我卡了一天，第一個問題就是在座標軸資料過多的時候，highcharts元件會自動調整座標軸的刻度間隔，好是好，但是我遇到的是它存在隨機性，在我的專案中，如圖而且每次出現的都是不固定的，有時候是這兩個，有時候是那兩個，而且看了

js中的棧與堆的講解/基本資料型別與引用型別的講解

1、棧（stack）和堆（heap）　　stack為自動分配的記憶體空間，它由系統自動釋放；而heap則是動態分配的記憶體，大小不定也不會自動釋放。　　　　　　　 2、基本型別和引用型別　　基本型別：存放在棧記憶體中的簡單資料段，資料大小確定，記憶體空間大小可以分配。　　5種基

用地圖說話在商業分析與演示中運用Excel資料地圖全綵

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Cris 的 Python 資料分析筆記 07：Pandas 中的 Series 資料結構

文章目錄 1. DataFrame 和 Series 關係 2. 新建 Series 資料結構（key 和 value） 3. Series 的排序 4. 區間求值 5. 根據 in

pandas 中DataFrame使用:資料標準化、資料分組、日期轉換、日期格式化、日期抽取

1資料標準化將資料按比例縮放，使之落入到特定區間，一般我們使用0-1標準化。公式如下： X∗=x−minmax−minX∗=x−minmax−min #導包 import pandas; from pandas import read_csv df=read_c

Hadoop 2.X管理與開發（二、資料壓縮與優化）

#Hadoop資料壓縮資料壓縮 1）MR操作過程中進行大量資料傳輸，就需要對資料進行壓縮 2）壓縮技術能夠有效減少底層儲存（HDFS）讀寫位元組數，提高的網路頻寬和磁碟空間的效率 3）資料壓縮能夠有效節省資源 4）壓縮事MR程式的優化策略 5）通過壓縮編碼對

python—pandas中DataFrame型別資料操作函式

python資料分析工具pandas中DataFrame和Series作為主要的資料結構. 本文主要是介紹如何對DataFrame資料進行操作並結合一個例項測試操作函式。 1）檢視DataFrame資料及屬性 df_obj = DataFrame() #建

微信小程式-中處理json資料（從json資料中提取想要的值將變數json字串轉成json物件）

1、新增依賴 <dependency> <groupId>net.sf.json-lib</groupId> <artifactId>jso

在JavaScript中處理JSON資料 jquery js 定義 json 格式

1.JSON（JavaScript Object Notation）一種簡單的資料格式，比xml更輕巧。JSON是JavaScript原生格式，這意味著在JavaScript中處理JSON資料不需要任何特殊的API或工具包。 JSON的規則很簡單：物件是一個無序的“‘名稱:值'對”集合

03 -2 numpy與pandas中處理丟失資料的理解與例項

處理丟失資料

1.有兩種丟失資料：

2. np.nan（NaN）

3. pandas中的None與NaN

1) pandas中None與np.nan都視作np.nan

2) pandas中None與np.nan的操作

相關推薦