Pandas 基礎(6) - 用 replace() 函數處理不合理數據
阿新 • • 發佈:2019-02-23
tor book 利用 我們 student numpy img 就是 exception
首先, 還是新建一個 jupyter notebook, 然後引入 csv 文件(此文件我已上傳到博客園):
import pandas as pd
import numpy as np
df = pd.read_csv(‘/Users/rachel/Sites/pandas/py/pandas/6_handling_missing_data_replace/weather_data.csv‘)
df
輸出:
從上面的輸出截圖, 可以看到有很多不合理的數據, 這時可以用 replace() 函數來處理:
new_df = df.replace([-99999, -88888], np.NaN)
輸出:
這時, 就還剩下 event 列裏的 0 還沒有改, 因為沒辦法簡單粗暴地把數字 0 放到 replace 函數的數組裏, 這樣會影響其他列的值. 這個解決辦法相信大家也都不會陌生了, 就是利用 python 的 dictionary:
new_df = df.replace({
‘temperature‘ : -99999,
‘windspeed‘:[-99999, -88888],
‘event‘: ‘0‘
}, np.NaN)
下面我們再來改下原 csv 文件, 把其中各別數據加上"單位":
如果我們想把多余的字母單位去掉, 可以用正則:
new_df = df.replace(‘[A-Za-z]‘,‘‘, regex=True)
這樣替換之後, 大家可以看一眼輸出結果, 發現 event 列的內容都沒有了, 因為字母都被替換掉了. 所以還是要這樣做:
new_df = df.replace({
‘temperature‘: ‘[A-Za-z]‘,
‘windspeed‘: ‘[A-Za-z]‘
} ,‘‘, regex=True)
下面再介紹另一個特性
首先
df = pd.DataFrame({
‘score‘: [‘exceptional‘, ‘average‘, ‘good‘, ‘poor‘, ‘average‘, ‘exceptional‘],
‘student‘: [‘rob‘, ‘maya‘, ‘jorge‘, ‘tom‘, ‘july‘, ‘erica‘]
})
輸出:
大家可以看到目前 score 列是用4個形容詞來體現成績的, 那如果想把它們按照等級換成 1-4分呢?
new_df = df.replace([‘poor‘, ‘average‘, ‘good‘, ‘exceptional‘], [1, 2, 3, 4])
輸出:
以上, 就是 replace() 函數的相關內容, enjoy~~~
Pandas 基礎(6) - 用 replace() 函數處理不合理數據