Pandas 基礎(6) - 用 replace() 函數處理不合理數據

阿新 • • 發佈：2019-02-23

tor book 利用我們 student numpy img 就是 exception

首先, 還是新建一個 jupyter notebook, 然後引入 csv 文件(此文件我已上傳到博客園):

import pandas as pd
import numpy as np
df = pd.read_csv(‘/Users/rachel/Sites/pandas/py/pandas/6_handling_missing_data_replace/weather_data.csv‘)
df

輸出:
技術分享圖片
從上面的輸出截圖, 可以看到有很多不合理的數據, 這時可以用 replace() 函數來處理:

new_df = df.replace([-99999, -88888], np.NaN)

輸出:
技術分享圖片
這時, 就還剩下 event 列裏的 0 還沒有改, 因為沒辦法簡單粗暴地把數字 0 放到 replace 函數的數組裏, 這樣會影響其他列的值. 這個解決辦法相信大家也都不會陌生了, 就是利用 python 的 dictionary:

new_df = df.replace({
    ‘temperature‘ : -99999,
    ‘windspeed‘:[-99999, -88888],
    ‘event‘: ‘0‘
}, np.NaN)

下面我們再來改下原 csv 文件, 把其中各別數據加上"單位":
技術分享圖片
如果我們想把多余的字母單位去掉, 可以用正則:

new_df = df.replace(‘[A-Za-z]‘,‘‘, regex=True)

這樣替換之後, 大家可以看一眼輸出結果, 發現 event 列的內容都沒有了, 因為字母都被替換掉了. 所以還是要這樣做:

new_df = df.replace({
    ‘temperature‘: ‘[A-Za-z]‘,
    ‘windspeed‘: ‘[A-Za-z]‘
} ,‘‘, regex=True)

下面再介紹另一個特性
首先

df = pd.DataFrame({
    ‘score‘: [‘exceptional‘, ‘average‘, ‘good‘, ‘poor‘, ‘average‘, ‘exceptional‘],
    ‘student‘: [‘rob‘, ‘maya‘, ‘jorge‘, ‘tom‘, ‘july‘, ‘erica‘]
})

輸出:
技術分享圖片
大家可以看到目前 score 列是用4個形容詞來體現成績的, 那如果想把它們按照等級換成 1-4分呢?

new_df = df.replace([‘poor‘, ‘average‘, ‘good‘, ‘exceptional‘], [1, 2, 3, 4])

輸出:
技術分享圖片

以上, 就是 replace() 函數的相關內容, enjoy~~~

Pandas 基礎(6) - 用 replace() 函數處理不合理數據

tor book 利用我們 student numpy img 就是 exception 首先, 還是新建一個 jupyter notebook, 然後引入 csv 文件(此文件我已上傳到博客園): import pandas as pd import numpy as

Spring data jpa 調用存儲過程處理返回參數及結果集

align 只需要數據庫 num pri 調用 column mysq ini 一、環境 1.此隨筆內容基於spring boot整合的spring data jpa項目， 2.數據庫為mysql 5.7.9版本二、內容 1. 新建存儲過程 pro_query_o

【python基礎】用字典做一個小型的查詢數據庫

import oot 字符 odin 參數錯誤 err 輸出 put 異常例子來源於《python基礎教程》第三版，57p 該例子主要是使用字典的方式，實現一個小型的數據庫，通過查詢字典的鍵值來獲取用戶的信息。本人修改了部分代碼。 #!/usr/bin/python3

Pandas 基礎(11) - 用 melt 做格式轉換

com 自己 ken val 容易意義我們 code 圖片 melt 也可以用來做數據格式轉換, 請看下圖, 我們可以用 melt 把左表轉成右表的格式: 首先引入文件(已上傳): df = pd.read_csv(‘/Users/rachel/Sites/pa

DevOps基礎-6.1-可靠性工程：工程不應止步於部署

這篇開始進入第六章，第一小節是可靠性工程。這是DevOps中的第三個主要練習區域。在工程中，可靠性描述了系統或元件在規定條件下在指定時間段內執行的能力。在IT中，這包括可用性，效能，安全性以及允許您的服務實際向用戶提供其功能的所有其他因素。

Python基礎（6）_函數

傳遞獲得不執行分配參數 code else turn 依賴一為何要有函數？不加區分地將所有功能的代碼壘到一起，問題是：　　代碼可讀性差　　代碼冗余　　代碼可擴展差如何解決？　　函數即工具，事先準備工具的過程是定義函數，拿來就用指的就是函數調

Python基礎【day04】：函數介紹、參數調用

位置方式 tab 端口調用 alt 調用函數一次參數調用本節內容函數介紹函數參數及調用函數的非固定參數函數介紹一、介紹　　在我們以往的學習編程的過程當中，碰到的最多的兩張編程方式或者說編程方法：面向過程和面向對象。其實不管是哪一種，其實都是編程的方法論

python數據處理：pandas基礎

log eat ges 處理保留 sed lang sce rop 本文資料來源：　　Python for Data Anylysis： Chapter 5 　　10 mintues to pandas: http://pandas.pydata.org/pandas-

寫一個dup2功能同樣的函數，不能調用 fcntl 函數，而且要有出錯處理

make argc exit post pre con version returns imp 實現的時候用到系統原來的dup函數 // mydup2.c // 2015/08/17 Lucifer Zhang version1.0 // write

樓梯T-SQL：超越基礎6級：使用CASE表達式和IIF函數

sim 等號 sql語句 arc 要求 sql代碼 -- express 但是從他的樓梯到T-SQL DML，Gregory Larsen涵蓋了更多的高級方面的T-SQL語言，如子查詢。有時您需要編寫一個可以根據另一個表達式的評估返回不同的TSQL表達式的單個TSQL語

python基礎6-函數的參數

傳值關鍵字參數內存空間 war 不能實例應該命名可變長參數形參與實參形參：在函數定義階段，括號內定義的參數的稱為形參,就相當於變量名實參：在函數調用階段，括號內定義的參數的稱為實參，就相當於變量值也就是說形參即變量名，實參即變量值，函數調用時，將值綁定到變量名

python基礎6—(高階,匿名，偏)函數 | 裝飾器

gpo cond result css *args start div tools lte 這裏比較的高級了，學到這裏感覺有點意思，但是也看到了和其他語言相通點高階函數可以把別的函數作為參數傳入的函數叫高階函數 def add(x, y, f): r

Matlab繪圖基礎——用print函數保存圖片(Print figure or save to file)

prop ont ott char 9.1 pbm tex cti roman 一、用法解析... 1 1.1. 分辨率-rnumber. 1 1.2. 輸出圖片的“格式”formats. 1 二、用法示例... 1 2.1. 設置輸出

pandas基礎(3)_數據處理

重復 des name red ora family 刪除重復 all dom 1：刪除重復數據使用duplicate()函數檢測重復的行，返回元素為bool類型的Series對象，每個元素對應一行，如果該行不是第一次出現，則元素為true >>&

【共讀Primer】46.[6.3]參數傳遞--main函數處理參數 Page196

這就是自身參數 .com out span command code pri 前面所講到的main函數都是空參數列表的。相信大家都見過啟動程序帶的參數，那麽這些參數時如何傳遞進去的。現在我們來看一下main函數聲明的完整形式 int main(int argc,

Js基礎知識6-JavaScript匿名函數和閉包

js基礎訪問 fun null 個數 () nbsp 自我每次 1，把匿名函數賦值給變量 var test = function() { return ‘guoyu‘; }; alert(test);//test是個函數 alert(t

3-6 用 Pandas 進行資料預處理：資料清洗與視覺化（版本：py3）

主要內容：格式轉換缺失資料異常資料資料標準化操作格式轉換如Python記錄時間的方式，不能夠直接實現減運算，就需要進行轉換 pandas.to_datetime 缺失資料忽略缺失資料直接標記利用平均值、最常出現值進行填充異常資料處

C#基礎之析構函數

bsp alt 基礎 ges -1 c# ima log images C#基礎之析構函數

SQL中的replace函數

abcde 進制數參數 amp 第一個字符 article pre exp ring REPLACE 用第三個表達式替換第一個字符串表達式中出現的所有第二個給定字符串表達式。語法 REPLACE ( ‘string_expression1‘ , ‘string_exp

R語言用nls做非線性回歸以及函數模型的參數估計

nes 線性 -s legend 最小值 fun des and start 非線性回歸是在對變量的非線性關系有一定認識前提下，對非線性函數的參數進行最優化的過程，最優化後的參數會使得模型的RSS（殘差平方和）達到最小。在R語言中最為常用的非線性回歸建模函數是nls，下面以

Pandas 基礎(6) - 用 replace() 函數處理不合理數據

相關推薦