[資料清洗]- Pandas 清洗“髒”資料（三）

阿新 • • 發佈：2022-04-29

預覽資料

這次我們使用 Artworks.csv ，我們選取 100 行資料來完成本次內容。具體步驟：

匯入 Pandas
讀取 csv 資料到 DataFrame（要確保資料已經下載到指定路徑）

DataFrame 是 Pandas 內建的資料展示的結構，展示速度很快，通過 DataFrame 我們就可以快速的預覽和分析資料。程式碼如下：

import pandas as pd



df = pd.read_csv('../data/Artworks.csv').head(100)

df.head(10)

統計日期資料

我們仔細觀察一下 Date 列的資料，有一些資料是年的範圍（1976-1977），而不是單獨的一個年份。在我們使用年份資料畫圖時，就不能像單獨的年份那樣輕易的畫出來。我們現在就使用 Pandas 的 value_counts() 來統計一下每種資料的數量。

首先，選擇要統計的列，並呼叫 value_counts():

df['Date'].value_counts()

日期資料問題

Date 列資料，除了年份是範圍外，還有三種非正常格式。下面我們將這幾種列出來：

問題一，時間範圍（1976-77）
問題二，估計（c. 1917，1917 年前後）
問題三，缺失資料（Unknown）
問題四，無意義資料（n.d.）

接下來我們會處理上面的每一個問題，使用 Pandas 將這些不規則的資料轉換為統一格式的資料。

問題一和二是有資料的只是格式上欠妥當，問題三和四實際上不是有效資料。針對前兩個問題，我們可以通過程式碼將據格式化來達到清洗的目的，然而，後兩個問題，程式碼上只能將其作為缺失值來處理。簡單起見，我們將問題三和四的資料處理為0。

處理問題一

問題一的資料都是兩個年時間範圍，我們選擇其中的一個年份作為清洗之後的資料。為了簡單起見，我們就使用開始的時間來替換這樣問題的資料，因為這個時間是一個四位數的數字，如果要使用結束的年份，我們還要補齊前兩位的數字。

首先，我們需要找到問題一的資料，這樣我們才能將其更新。要保證其他的資料不被更新，因為其他的資料有可能是已經格式化好的，也有可能是我們下面要處理的。

我們要處理的時間範圍的資料，其中包含有“-”，這樣我們就可以通過這個特殊的字串來過濾我們要處理的資料，然後，通過 split() 利用“-”將資料分割，將結果的第一部分作為處理的最終結果。

程式碼如下

row_with_dashes = df['Date'].str.contains('-').fillna(False)

for i, dash in df[row_with_dashes].iterrows():

    df.at[i,'Date'] = dash['Date'][0:4]

df['Date'].value_counts()

處理問題二

問題二的資料體現了資料本身的不準確性，是一個估計的年份時間，我們將其轉換為年份，那麼，就只要保留最後四位數字即可，該資料的特點就是資料包含“c”，這樣我們就可以通過這一特徵將需要轉換的資料過濾出來。

row_with_cs = df['Date'].str.contains('c').fillna(False)

for i,row in df[row_with_cs].iterrows():

    df.at[i,'Date'] = row['Date'][-4:]

df[row_with_cs]

處理問題三四

將這問題三四的資料賦值成初始值 0。

df['Date'] = df['Date'].replace('Unknown','0',regex=True)

df['Date'] = df['Date'].replace('n.d.','0',regex=True)

df['Date']

程式碼整合

mport pandas as pd



df = pd.read_csv('../data/Artworks.csv').head(100)

df.head(10)



df['Date'].value_counts()



row_with_dashes = df['Date'].str.contains('-').fillna(False)

for i, dash in df[row_with_dashes].iterrows():

    df.at[i,'Date'] = dash['Date'][0:4]

df['Date'].value_counts()



row_with_cs = df['Date'].str.contains('c').fillna(False)

for i,row in df[row_with_cs].iterrows():

    df.at[i,'Date'] = row['Date'][-4:]

df['Date'].value_counts()



df['Date'] = df['Date'].replace('Unknown','0',regex=True)

df['Date'] = df['Date'].replace('n.d.','0',regex=True)

df['Date'].value_counts()

更多關於資料清洗的內容可以關注知乎上的專欄“資料清洗”

知乎資料清洗- Pandas 清洗“髒”資料（三）

[資料清洗]- Pandas 清洗“髒”資料（三）

預覽資料

統計日期資料

日期資料問題

處理問題一

處理問題二

處理問題三四

程式碼整合

資料結構與演算法之美（三）——演算法

資料結構與演算法碎片積累（三）

資料分析Pandas庫學習筆記（2）

Java學習——資料結構之棧實現運算器（三）

[資料清洗]- Pandas 清洗“髒”資料（三）

[資料清洗]- Pandas 清洗“髒”資料（二）

[資料清洗]-Pandas 清洗“髒”資料（一）

pandas系列 - （三）關於時點時期資料的處理

帶你入坑大資料（三） --- MapReduce介紹

Spark 系列（三）—— 彈性式資料集RDDs

從零寫一個編譯器（三）：語法分析之幾個基礎資料結構

資料結構-樹（三）：多路搜尋樹B樹、B+樹

MySQL資料庫—DML資料管理（三）

JVM 專題八：執行時資料區（三）虛擬機器棧

《資料結構與演算法之美》16——散列表（三）為什麼散列表和連結串列經常會一起使用？

Android——資料儲存（三）（SQLite儲存）

【.NET框架】—— ASP.NET MVC資料驗證註解（三）

大資料實戰（三）：flink（三）電商使用者行為分析（三）實時流量統計（一）

Spark權威指南讀書筆記（三）處理不同的資料型別

大資料實戰（十）：電商數倉（三）之使用者行為資料採集（三）資料生成模組（一）

[資料清洗]- Pandas 清洗“髒”資料（三）

預覽資料

統計日期資料

日期資料問題

處理問題一

處理問題二

處理問題三四

程式碼整合

相關推薦