使用 Python 進行資料清洗的完整指南

阿新 • • 發佈：2022-03-28

你一定聽說過這句著名的資料科學名言：

在資料科學專案中， 80% 的時間是在做資料處理。

如果你沒有聽過，那麼請記住：資料清洗是資料科學工作流程的基礎。機器學習模型會根據你提供的資料執行，混亂的資料會導致效能下降甚至錯誤的結果，而乾淨的資料是良好模型效能的先決條件。當然乾淨的資料並不意味著一直都有好的效能，模型的正確選擇（剩餘 20%）也很重要，但是沒有乾淨的資料，即使是再強大的模型也無法達到預期的水平。

在本文中將列出資料清洗中需要解決的問題並展示可能的解決方案，通過本文可以瞭解如何逐步進行資料清洗。

缺失值

當資料集中包含缺失資料時，在填充之前可以先進行一些資料的分析。因為空單元格本身的位置可以告訴我們一些有用的資訊。例如：

NA值僅在資料集的尾部或中間出現。這意味著在資料收集過程中可能存在技術問題。可能需要分析該特定樣本序列的資料收集過程，並嘗試找出問題的根源。
如果列NA數量超過 70–80%，可以刪除該列。
如果 NA 值在表單中作為可選問題的列中，則該列可以被額外的編碼為使用者回答（1）或未回答（0）。

missingno

這個python庫就可以用於檢查上述情況，並且使用起來非常的簡單，例如下圖中的白線是 NA：

import missingno as msno
msno.matrix(df)

對於缺失值的填補計算有很多方法，例如：

平均，中位數，眾數
kNN
零或常數等

不同的方法相互之間有優勢和不足，並且沒有適用於所有情況的“最佳”技術。具體可以參考我們以前釋出的文章

異常值

異常值是相對於資料集的其他點而言非常大或非常小的值。它們的存在極大地影響了數學模型的效能。讓我們看一下這個簡單的示例：

在左圖中沒有異常值，我們的線性模型非常適合資料點。在右圖中有一個異常值，當模型試圖覆蓋資料集的所有點時，這個異常值的存在會改變模型的擬合方式，並且使我們的模型不適合至少一半的點。

對於異常值來說我們有必要介紹一下如何確定異常，這就要從數學角度明確什麼是極大或極小。

大於Q3+1.5 x IQR或小於Q1-1.5 x IQR都可以作為異常值。IQR（四分位距）是 Q3 和 Q1 之間的差 (IQR = Q3-Q1)。

可以使用下面函式來檢查資料集中異常值的數量：

完整文章：

https://www.overfit.cn/post/7728efa2841148bdbb184a6cdd7aaca3

使用 Python 進行資料清洗的完整指南

你一定聽說過這句著名的資料科學名言：在資料科學專案中， 80% 的時間是在做資料處理。

python 利用已有Ner模型進行資料清洗合併程式碼

我就廢話不多說了，直接上程式碼吧！ # -*- coding: utf-8 -*- from kashgari.corpus import DataReader

資料清洗與準備知識圖譜-《利用Python進行資料分析》

所有內容整理自《利用Python進行資料分析》，使用MindMaster Pro 7.3製作，emmx格式，原始檔已經上傳Github，需要的同學轉左上角自行下載或者右擊儲存圖片。

python實現資料清洗(缺失值與異常值處理)

1。將本地sql檔案寫入mysql資料庫本文寫入的是python資料庫的taob表 source [本地檔案]

資料載入、儲存及檔案格式知識圖譜-《利用Python進行資料分析》

資料規整：連線、聯合與重塑知識圖譜-《利用Python進行資料分析》

繪圖和視覺化知識圖譜-《利用Python進行資料分析》

資料聚合與分組操作知識圖譜-《利用Python進行資料分析》

時間序列知識圖譜-《利用Python進行資料分析》

高階Pandas知識圖譜-《利用Python進行資料分析》

《利用Python進行資料分析》 —— （1）

《利用Python進行資料分析》 —— （1） Python的學習需要自主探索各種型別，函式和方法的文件。

《利用Python進行資料分析》 —— （2）

《利用Python進行資料分析》 —— （2）本章主要介紹Python常用的資料結構和以及Python函式等基礎知識。

"利用python進行資料分析"學習記錄01

"利用python進行資料分析"學習記錄 --day0108/02 與書相關的資料在 http://github.com/wesm/pydata-book

利用python進行資料分析（第二版）筆記

Numpy 1、建立ndarray物件 1、arr.ndim：Numpy陣列維度資訊 2、arr.shape：Numpy陣列形狀資訊

利用python進行資料分析-第四章筆記

Chapter 4 NumPy Basics: Arrays and Vectorized Computation 題外話：numpy short for numerical python

利用python進行資料分析-第五章筆記

Chapter 5 Getting Started with pandas 這一章要介紹 pandas 的基礎。都是資料處理包，pandas 和 numpy 的區別在於：

利用python進行資料分析-第六章筆記

Chapter 6 Data Loading, Storage, and File Formats Reading and Writing Data in Text Format 最常用的是 read_csv 和 read_table，不過數模競賽裡很多都是用 excel 給資料，不知道今年是個啥情況。

使用Mysql工具進行資料清洗

資料資源 https://gitee.com/pingfanrenbiji/resource/blob/master/%E9%87%91%E8%9E%8D%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/%E7%AC%AC%E4%B8%80%E7%AB%A0/database1/transaction_info.csv

pandas frame 刪除一行_利用Python進行資料分析（第五章、Pandas入門）【三】

技術標籤：pandas frame 刪除一行pandas loc 正則匹配pandas reindexpython中series怎麼重建索引

《利用python進行資料分析》學習筆記（一）

處理usa.gov資料匯入資料 import jsonpath = \'usagov_bitly_data2012-03-16-1331923249.txt\'records = [json.loads(line) for line in open(path)]

使用 Python 進行資料清洗的完整指南

缺失值

異常值

相關推薦