[資料清洗]- Pandas 清洗“髒”資料(三)
預覽資料
這次我們使用 Artworks.csv ,我們選取 100 行資料來完成本次內容。具體步驟:
- 匯入 Pandas
- 讀取 csv 資料到 DataFrame(要確保資料已經下載到指定路徑)
DataFrame 是 Pandas 內建的資料展示的結構,展示速度很快,通過 DataFrame 我們就可以快速的預覽和分析資料。程式碼如下:
import pandas as pd
df = pd.read_csv('../data/Artworks.csv').head(100)
df.head(10)
統計日期資料
我們仔細觀察一下 Date 列的資料,有一些資料是年的範圍(1976-1977),而不是單獨的一個年份。在我們使用年份資料畫圖時,就不能像單獨的年份那樣輕易的畫出來。我們現在就使用 Pandas 的 value_counts() 來統計一下每種資料的數量。
首先,選擇要統計的列,並呼叫 value_counts():
df['Date'].value_counts()
日期資料問題
Date 列資料,除了年份是範圍外,還有三種非正常格式。下面我們將這幾種列出來:
- 問題一,時間範圍(1976-77)
- 問題二,估計(c. 1917,1917 年前後)
- 問題三,缺失資料(Unknown)
- 問題四,無意義資料(n.d.)
接下來我們會處理上面的每一個問題,使用 Pandas 將這些不規則的資料轉換為統一格式的資料。
問題一和二是有資料的只是格式上欠妥當,問題三和四實際上不是有效資料。針對前兩個問題,我們可以通過程式碼將據格式化來達到清洗的目的,然而,後兩個問題,程式碼上只能將其作為缺失值來處理。簡單起見,我們將問題三和四的資料處理為0。
處理問題一
問題一的資料都是兩個年時間範圍,我們選擇其中的一個年份作為清洗之後的資料。為了簡單起見,我們就使用開始的時間來替換這樣問題的資料,因為這個時間是一個四位數的數字,如果要使用結束的年份,我們還要補齊前兩位的數字。
首先,我們需要找到問題一的資料,這樣我們才能將其更新。要保證其他的資料不被更新,因為其他的資料有可能是已經格式化好的,也有可能是我們下面要處理的。
我們要處理的時間範圍的資料,其中包含有“-”,這樣我們就可以通過這個特殊的字串來過濾我們要處理的資料,然後,通過 split() 利用“-”將資料分割,將結果的第一部分作為處理的最終結果。
程式碼如下
row_with_dashes = df['Date'].str.contains('-').fillna(False) for i, dash in df[row_with_dashes].iterrows(): df.at[i,'Date'] = dash['Date'][0:4] df['Date'].value_counts()
處理問題二
問題二的資料體現了資料本身的不準確性,是一個估計的年份時間,我們將其轉換為年份,那麼,就只要保留最後四位數字即可,該資料的特點就是資料包含“c”,這樣我們就可以通過這一特徵將需要轉換的資料過濾出來。
row_with_cs = df['Date'].str.contains('c').fillna(False)
for i,row in df[row_with_cs].iterrows():
df.at[i,'Date'] = row['Date'][-4:]
df[row_with_cs]
處理問題三四
將這問題三四的資料賦值成初始值 0。
df['Date'] = df['Date'].replace('Unknown','0',regex=True)
df['Date'] = df['Date'].replace('n.d.','0',regex=True)
df['Date']
程式碼整合
mport pandas as pd
df = pd.read_csv('../data/Artworks.csv').head(100)
df.head(10)
df['Date'].value_counts()
row_with_dashes = df['Date'].str.contains('-').fillna(False)
for i, dash in df[row_with_dashes].iterrows():
df.at[i,'Date'] = dash['Date'][0:4]
df['Date'].value_counts()
row_with_cs = df['Date'].str.contains('c').fillna(False)
for i,row in df[row_with_cs].iterrows():
df.at[i,'Date'] = row['Date'][-4:]
df['Date'].value_counts()
df['Date'] = df['Date'].replace('Unknown','0',regex=True)
df['Date'] = df['Date'].replace('n.d.','0',regex=True)
df['Date'].value_counts()
更多關於資料清洗的內容可以關注知乎上的專欄“資料清洗”