[資料清洗]- Pandas 清洗“髒”資料（二）

阿新 • • 發佈：2022-04-29

概要

瞭解資料
分析資料問題
清洗資料
整合程式碼

瞭解資料

在處理任何資料之前，我們的第一任務是理解資料以及資料是幹什麼用的。我們嘗試去理解資料的列/行、記錄、資料格式、語義錯誤、缺失的條目以及錯誤的格式，這樣我們就可以大概瞭解資料分析之前要做哪些“清理”工作。

本次我們需要一個 patient_heart_rate.csv （連結：https://pan.baidu.com/s/1geX8oYf 密碼：odj0）的資料檔案，這個資料很小，可以讓我們一目瞭然。這個資料是 csv 格式。資料是描述不同個體在不同時間的心跳情況。資料的列資訊包括人的年齡、體重、性別和不同時間的心率。

import pandas as pd
df = pd.read_csv('../data/patient_heart_rate.csv')
df.head()

分析資料問題

沒有列頭
一個列有多個引數
列資料的單位不統一
缺失值
空行
重複資料
非 ASCII 字元
有些列頭應該是資料，而不應該是列名引數

清洗資料

下面我們就針對上面的問題一一擊破。

1. 沒有列頭

如果我們拿到的資料像上面的資料一樣沒有列頭，Pandas 在讀取 csv 提供了自定義列頭的引數。下面我們就通過手動設定列頭引數來讀取 csv，程式碼如下：

import pandas as pd
# 增加列頭
column_names= ['id', 'name', 'age', 'weight','m0006','m0612','m1218','f0006','f0612','f1218']
df = pd.read_csv('../data/patient_heart_rate.csv', names = column_names)
df.head()

上面的結果展示了我們自定義的列頭。我們只是在這次讀取 csv 的時候，多了傳了一個引數 names = column_names，這個就是告訴 Pandas 使用我們提供的列頭。

2. 一個列有多個引數

在資料中不難發現，Name 列包含了兩個引數 Firtname 和 Lastname。為了達到資料整潔目的，我們決定將 name 列拆分成 Firstname 和 Lastname

從技術角度，我們可以使用 split 方法，完成拆分工作。

我們使用 str.split(expand=True),將列表拆成新的列，再將原來的 Name 列刪除

# 切分名字，刪除源資料列
df[['first_name','last_name']] = df['name'].str.split(expand=True)
df.drop('name', axis=1, inplace=True)

上面就是執行執行程式碼之後的結果。

3. 列資料的單位不統一

如果仔細觀察資料集可以發現 Weight 列的單位不統一。有的單位是 kgs，有的單位是 lbs

# 獲取 weight 資料列中單位為 lbs 的資料
rows_with_lbs = df['weight'].str.contains('lbs').fillna(False)
df[rows_with_lbs]

為了解決這個問題，將單位統一，我們將單位是 lbs 的資料轉換成 kgs。

# 將 lbs 的資料轉換為 kgs 資料

for i,lbs_row in df[rows_with_lbs].iterrows():
weight = int(float(lbs_row['weight'][:-3])/2.2)
df.at[i,'weight'] = '{}kgs'.format(weight)

4. 缺失值

在資料集中有些年齡、體重、心率是缺失的。我們又遇到了資料清洗最常見的問題——資料缺失。一般是因為沒有收集到這些資訊。我們可以諮詢行業專家的意見。典型的處理缺失資料的方法：

刪：刪除資料缺失的記錄（資料清洗- Pandas 清洗“髒”資料（一）/[資料清洗]-Pandas 清洗“髒”資料（一））
贗品：使用合法的初始值替換，數值型別可以使用 0，字串可以使用空字串“”
均值：使用當前列的均值
高頻：使用當前列出現頻率最高的資料
源頭優化：如果能夠和資料收集團隊進行溝通，就共同排查問題，尋找解決方案。

5. 空行

仔細對比會發現我們的資料中一行空行，除了 index 之外，全部的值都是 NaN。

Pandas 的 read_csv() 並沒有可選引數來忽略空行，這樣，我們就需要在資料被讀入之後再使用 dropna() 進行處理，刪除空行.

# 刪除全空的行
df.dropna(how='all',inplace=True)

6. 重複資料

有的時候資料集中會有一些重複的資料。在我們的資料集中也添加了重複的資料。

首先我們校驗一下是否存在重複記錄。如果存在重複記錄，就使用 Pandas 提供的 drop_duplicates() 來刪除重複資料。

# 刪除重複資料行
df.drop_duplicates(['first_name','last_name'],inplace=True)

7. 非 ASCII 字元

在資料集中 Fristname 和 Lastname 有一些非 ASCII 的字元。

處理非 ASCII 資料方式有多種

刪除
替換
僅僅提示一下

我們使用刪除的方式：

# 刪除非 ASCII 字元
df['first_name'].replace({r'[^x00-x7F]+':''}, regex=True, inplace=True)
df['last_name'].replace({r'[^x00-x7F]+':''}, regex=True, inplace=True)

8. 有些列頭應該是資料，而不應該是列名引數

有一些列頭是有性別和時間範圍組成的，這些資料有可能是在處理收集的過程中進行了行列轉換，或者收集器的固定命名規則。這些值應該被分解為性別（m,f），小時單位的時間範圍（00-06，06-12，12-18）

# 切分 sex_hour 列為 sex 列和 hour 列
sorted_columns = ['id','age','weight','first_name','last_name']
df = pd.melt(df,
id_vars=sorted_columns,var_name='sex_hour',value_name='puls_rate').sort_values(sorted_columns)
df[['sex','hour']] = df['sex_hour'].apply(lambda x:pd.Series(([x[:1],'{}-{}'.format(x[1:3],x[3:])])))[[0,1]]
df.drop('sex_hour', axis=1, inplace=True)

# 刪除沒有心率的資料
row_with_dashes = df['puls_rate'].str.contains('-').fillna(False)
df.drop(df[row_with_dashes].index,
inplace=True)

整合程式碼

import pandas as pd
# 增加列頭
column_names= ['id', 'name', 'age', 'weight','m0006','m0612','m1218','f0006','f0612','f1218']
df = pd.read_csv('../data/patient_heart_rate.csv', names = column_names)

# 切分名字，刪除源資料列
df[['first_name','last_name']] = df['name'].str.split(expand=True)
df.drop('name', axis=1, inplace=True)

# 獲取 weight 資料列中單位為 lbs 的資料
rows_with_lbs = df['weight'].str.contains('lbs').fillna(False)
df[rows_with_lbs]

# 將 lbs 的資料轉換為 kgs 資料
for i,lbs_row in df[rows_with_lbs].iterrows():
weight = int(float(lbs_row['weight'][:-3])/2.2)
df.at[i,'weight'] = '{}kgs'.format(weight)
 
# 刪除全空的行
df.dropna(how='all',inplace=True)

# 刪除重複資料行
df.drop_duplicates(['first_name','last_name'],inplace=True)

# 刪除非 ASCII 字元
df['first_name'].replace({r'[^x00-x7F]+':''}, regex=True, inplace=True)
df['last_name'].replace({r'[^x00-x7F]+':''}, regex=True, inplace=True)

# 切分 sex_hour 列為 sex 列和 hour 列
sorted_columns = ['id','age','weight','first_name','last_name']
df = pd.melt(df,
id_vars=sorted_columns,var_name='sex_hour',value_name='puls_rate').sort_values(sorted_columns)
df[['sex','hour']] = df['sex_hour'].apply(lambda x:pd.Series(([x[:1],'{}-{}'.format(x[1:3],x[3:])])))[[0,1]]
df.drop('sex_hour', axis=1, inplace=True)

# 刪除沒有心率的資料
row_with_dashes = df['puls_rate'].str.contains('-').fillna(False)
df.drop(df[row_with_dashes].index,
inplace=True)

# 重置索引，不做也沒關係，主要是為了看著美觀一點
df = df.reset_index(drop=True)
print(df)

還有一些問題在本例中沒有提及內容，下面有兩個比較重要，也比較通用的問題：

日期的處理
字元編碼的問題

本次又介紹了一些關於 Pandas 清洗資料的技能。至少用這幾次介紹的處理方法，應該可以對資料做很多清洗工作。

更多關於資料清洗的內容可以關注知乎上的專欄“資料清洗”

知乎資料清洗- Pandas 清洗“髒”資料（二）

[資料清洗]- Pandas 清洗“髒”資料（二）

概要

瞭解資料

分析資料問題

清洗資料

整合程式碼

資料結構與演算法之美（二）——資料結構

資料結構之鏈式棧（二）

資料結構與算法系列（二）-- 演算法

資料分析Pandas庫學習筆記（2）

Vijos資料結構基礎C++實驗整理（二）——排序演算法

資料結構經典排序演算法總結（二）

【R】【資料處理】如何用R實現資料透視表的操作？（二）

Java學習——資料結構之棧實現計算器（二）

[資料清洗]- Pandas 清洗“髒”資料（二）

[資料清洗]- Pandas 清洗“髒”資料（三）

[資料清洗]-Pandas 清洗“髒”資料（一）

Hadoop基礎（二十九）：資料清洗（ETL）（二）複雜解析版

pandas切片_資料處理進階pandas入門（二）

併發讀寫資料一致性保證（二）-MySQL

帶你入坑大資料（二） --- HDFS的讀寫流程和一些重要策略

資料倉庫學習筆記（二）

HBase 系列（二）—— HBase 系統架構及資料結構

Scala 系列（二）—— 基本資料型別和運運算元

C#資料結構與算法系列（二十）：插入排序演演算法（InsertSort）

redis入門指南（二）—— 資料操作相關命令

[資料清洗]- Pandas 清洗“髒”資料（二）

概要

瞭解資料

分析資料問題

清洗資料

整合程式碼

相關推薦