python資料分析與挖掘之資料清洗

阿新 • • 發佈：2018-11-29

資料探索的目的是及早發現數據的一些簡單規律或特徵,資料清洗的目的是留下可靠的資料,避免髒資料的干擾。

這兩者沒有嚴格的先後順序,經常在一個階段進行。

資料清洗我們要達到的目的是修復資料到正常的數值。

簡單講一下資料探索的核心,其實包括兩點:

1.資料質量分析(跟資料清洗密切聯絡)。這一點其實很重要,因為我們要處理異常資料和缺失資料,這就是俗稱的髒資料。

2.資料特徵分析。這就需要我們用到統計學上的知識對資料進行分析,我舉一下常見的分析方法有:分佈,對比,週期性,相關性, 常見統計量等。

講到核心的第二點,我覺得有必要解釋下幾種常見的分析方法:

分佈:我們通過發現數據的分佈規律,明白資料大致的走勢和分析。

對比:比較資料在同一個圖中的情況。

相關性:兩組或者多組資料在同一橫軸和縱軸的關係。

常見的統計量:因為我們可以通過describe知道資料大致情況,比如中位數、平均數等。

通過以上幾種常見的分析方法,當你拿到資料的時候,千萬不要急,你可以套著以上幾種分析方法,萬變不離其宗,總有一個是適合的。

好啦,前面只是一個鋪墊,真正的菜來啦!!!

重點還是資料清洗,資料清洗這裡面還是有挺多技巧噠。一般資料清洗無非就是有兩種情況:

1.缺失值得處理。我們可以通過describe與len直接發現,還有就是通過0資料發現。

2.異常值處理。通過散點圖發現,如果那些數值偏離得太大,這個資料很大可能就是異常值,你要處理一下。

一般遇到缺失值得處理方式為:刪除、插補、不處理。

我簡單講下插補的方式吧,這點很重要,不然你很難去處理資料。插補的方式主要有,均值插補,中位數插補,眾數插補,固定值插補,最近資料插補,迴歸插補,拉格朗日插值,牛頓插值法,分段插值等等。

對,還有一種情況,遇到異常值,處理方式為視為缺失值,刪除,修補(平均數中位數等等) ,不處理。

一下子說了這麼多太苦澀了,我通過爬取某電商商品價格和評論,具體講解下操作。

import pymysql
import numpy as npy
import pandas as pda
import matplotlib.pylab as pyl
conn = pymysql.connect(host="127.0.0.1",user="root",passwd="root",db="shop",charset="utf8")
sql = "select * from product"
data =pda.read_sql(sql,conn)
print(data.describe())  #以通過describe與len直接發現
print(len(data))  #上下兩個對比發現缺失資料 10200

通過打印出來,知道資料的情況,我分析一遍。

            price        comment
count  10200.00000    10200.000000
mean     64.49324     562.239601   平均數
std     176.10901    6078.909643   標準差
min       0.00000       0.000000   價格為0不可能,所以你要處理
25%      20.00000      16.000000
50%      36.00000      58.000000   中位數
75%      66.00000     205.000000
max    8910.00000  650210.000000   也要處理一下,評論數太大,就知道異常得太厲害

10200  #len(data)發現大小與describe中資料量大小一樣,所以此時我們就不能通過describe和len來發現異常缺失值,現在能做的是通過0

所以採用的是用0來對比資料,因為價格不可能為0的,我可以通過這個入手。

#把價格為0的變為空值--->迴圈處理,發現空值就補充為中位數(異常值的影響小一點)或者平均數,拉格朗差值,牛頓
data["price"][(data["price"]==0)] = None   #發現價格為空值的,你就進行處理
#將所有價格為0處理成空值
x=0
for i in data.columns:
    for j in range(len(data)):
        if (data[i].isnull())[j]:
            data[i][j]="36"      #這裡直接給了中位數36,在describe中得到
            x+=1   #處理一次加1

print(x)

以上這些就是處理缺失值,接下第二步,我們要處理異常值。我們可以通過散點圖,最快發現異常的值,因為它肯定是偏離正常範圍最厲害的。

#異常值處理
#畫散點圖 (橫軸為價格,縱軸為評論數)
#首先先得到價格
data2 = data.T
price = data2.values[2]
#得到評論資料
comt = data2.values[3]
pyl.plot(price,comt,'o')
pyl.show()
#先看圖確定異常點,然後用程式確定這個數,迴圈處理
#異常值處理
#評論數異常>200000,價格異常>2300
#首先得到所有行數和列數
line = len(data.values)
col = len(data.values[0])
print(line)
print(col)
da = data.values #所有資訊的新陣列
print(da)
for i in range(0,line):
     for j in range(0,col):
         if (da[i][2]>2300):  #得到價格
             print(da[i][j])
             da[i][j] = 36
         if (da[i][3]>200000):
             print(da[i][j])
             da[i][j] = 58  #58為中位數

通過以上的異常值處理後,我們可以再列印一下散點圖,看看處理情況。

#異常處理後的影象
da2 = da.T
price = da2[2]
comt = da2[3]
pyl.plot(price,comt,'o')
pyl.show()

以上這些,就是大致的資料清理的做法以及實現方式。

不過,我還是要補充一點,這是我們要記住的,嚴重偏離的資料,我們一般會幹掉,但是如果你獲取的資料量很小,我就不建議你把它幹掉,因為一旦幹掉,你的樣本資料將變少,不值得。切記,千萬不要以犧牲資料量為代價來換取可靠資料,顯然不可取,你要根據實際情況而定。

python資料分析與挖掘之資料清洗

資料探索的目的是及早發現數據的一些簡單規律或特徵,資料清洗的目的是留下可靠的資料,避免髒資料的干擾。這兩者沒有嚴格的先後順序,經常在一個階段進行。 &nb

資料分析與挖掘之資料預處理

目錄資料整合簡單變換資料整合 #資料整合 import numpy a=numpy.array([[1,5,6],[9,4,3]]) b=numpy.array([[6,36,7],[2,3,39]]) c=numpy.conca

python資料分析與挖掘之聚類kmeans演算法

聚類不指定類別進行分類（劃分（分裂）法，層次分析法、密度分析法）、網格法、模型法 Kmeans演算法屬於分裂法隨機選擇k各點作為聚類中心計算各個點到這K個點的距離將對應的點聚到與它最近的這個聚類中心重新

python資料分析與挖掘之貝葉斯演算法演算法實現

程式碼中有詳細的註釋訓練檔案： Txt檔案中為0，1矩陣，將圖片轉換為0，1矩陣見上一篇部落格方法 import numpy import operator from os import listdir class Bayes: def __init__(self):

Python資料分析與挖掘學習筆記（4）淘寶商品資料探索與清洗實戰

一、相關理論：資料探索的核心：（1）資料質量分析（跟資料清洗密切聯絡）（2）資料特徵分析（分佈、對比、週期性、相關性、常見統計量等）資料清洗的步驟：（1）缺失值處理（通過describe與len直接發現、通過0資料發現）（2）異常值處理（通過散點圖發現

Python新書推薦《從零開始學Python--資料分析與挖掘》

經過10多個月的努力，《從零開始學Python--資料分析與挖掘》的新書上市啦，在此感謝清華大學出版社對本書提出的寶貴建議，也感謝廣大網友及粉絲對我的期待。本書一共包含16章的內容，涉及四大模組，分別是Python基礎儲備、Python資料運算與整理、Python資料視覺化和Python資料探勘理論

菜鷄日記——《Python資料分析與挖掘實戰》實驗6-1 拉格朗日插值法

實驗6-1 用拉格朗日插值法題目描述：用拉格朗日插值法對missing_data.xls中表格的空值進行填補。 # p1, lab6 # Fill all of the null values with Lagrange's interpolation # Data file name i

Python資料分析與挖掘第一篇—基本介紹及環境搭建

一，資料分析與挖掘簡介　　所謂資料分析，是對已有的資料進行分析，提取一些有價值的資訊，比如平均數，標準差等。而資料探勘，是對大量的資訊進行分析和挖掘，得到一些未知的，有價值的資訊。如今日頭條類的新聞推送就是通過對使用者的資訊進行分析和挖掘，從而達到精準推送使用者感興趣的新聞。資料分析和資料探勘往往是密不可

Python資料分析與挖掘實戰 pdf下載

Python資料分析與挖掘實戰是10餘位資料探勘領域資深專家和科研人員，10餘年大資料探勘諮詢與實施經驗結晶。從資料探勘的應用出發，以電力、航空、醫療、網際網路、生產製造以及公共服務等行業真實案例為主線，深入淺出介紹Python資料探勘建模過程，實踐性極強。本書共15章，分兩個部分：基礎

python資料分析與挖掘模組簡介

所謂資料分析,即對已知的資料進行分析,然後提取出一-些有價值的資訊，比如統計出平均數、標準差等資訊,資料分析的資料量有時可能不會太大，而資料探勘，是指對大量的資料進行分析與挖掘,得到一些未知的,有價值的資訊等,比如從網站的使用者或使用者行為資料中挖掘出使用者的潛在需求資訊,

Python資料分析與挖掘學習筆記（2）使用pandas進行資料匯入

一、匯入pandas模組： import pandas as pda 二、匯入CSV格式資料： #資料匯入 i=pda.read_csv("E:/hexun.csv") 可對匯入的資料進行統計以及按列排序： #統計 i.describe() #排序 i

Python資料分析與挖掘學習筆記（5）資料規範化與資料離散化實戰

一、相關理論： 1、資料規範化的常見方法：（1）離差標準化（最小-最大標準化）--消除量綱（單位）影響以及變異大小因素的影響。（最小-最大標準化） x1=（x-min）/（max-min）（2）標準差標準化--消除單

《Python資料分析與挖掘實戰》筆記（一）：資料探勘基礎

一、資料探勘的基本任務利用分類與預測、聚類分析、關聯規則、時序模式、偏差檢測、智慧推薦等方法，幫助企業提取資料中蘊含的商業價值，提升企業的競爭力。二、資料探勘建模過程定義挖掘目標：任務目標和完

Python資料分析與挖掘實戰—挖掘建模

常用的分類與預測演算法 1迴歸模型分類 1線性迴歸---自變數因變數線性關係，最小二乘法求解 2非線性迴歸--自變數因變數非線性關係，函式變換為線性關係，或非線性最小二乘方法求解 3logistic迴

Python資料分析與挖掘實戰（Pandas,Matplotlib常用方法）

作業系統：Windows Python：3.5 歡迎加入學習交流QQ群：657341423 上節講到資料分析和挖掘需要的庫，其中最主要的是Pandas,Matplotlib。 Pandas：主要是對資料分析，計算和統計，如求平均值，方差等。 Matplotl

python資料分析與挖掘學習筆記（6）-電商網站資料分析及商品自動推薦實戰與關聯規則演算法

這一節主要涉及到的資料探勘演算法是關聯規則及Apriori演算法。由此展開電商網站資料分析模型的構建和電商網站商品自動推薦的實現，並擴充套件到協同過濾演算法。關聯規則最有名的故事就是啤酒與尿布的故事，非常有效地說明了關聯規則在知識發現和資料探勘中起的作用和意義。其中有

Python資料分析與挖掘實戰程式碼糾錯程式碼3-1

我是通過這本書來開始學習資料探勘和分析，在目前學的內容中，發現了書上的程式碼有些地方是錯誤了，在此希望分享下我除錯好的程式碼，供大家參考，相互學習。 1、程式碼清單3-1 餐飲銷額資料異常值檢測程式碼書上的程式碼如下： #-*- coding: utf-

《Python資料分析與挖掘實戰》第7章——kmeans

本文是基於《Python資料分析與挖掘實戰》的實戰部分的第七章的資料——《航空公司客戶價值分析》做的分析。旨在補充原文中的細節程式碼，並給出文中涉及到的內容的完整程式碼。 1）在資料預處理部分增加了屬性規約、資料變換的程式碼2）在模型構建的部分增加了一個畫出雷達圖的函式程式碼

python資料分析與挖掘實戰第六章拓展思考

企業偷漏稅識別模型 1、資料探索偷漏稅企業分佈首先生成data import pandas as pd inputfile = r'E:\Download\百度雲\圖書配套資料、程式碼\chapter6\拓展思考\tax.xls' data =

python資料分析與挖掘之資料清洗

相關推薦