Python資料操作—資料清理

阿新 • • 發佈：2019-01-01

資料丟失在現實生活中是一個問題。機器學習和資料探勘等領域由於資料缺失導致資料質量差，因此在模型預測的準確性方面面臨嚴峻的問題。在這些領域，缺失值處理是使模型更加準確和有效的關鍵。

什麼情況下，以及什麼時候資料會丟失？
讓我們考慮一個產品的線上調查。很多時候，人們不會分享與他們有關的所有資訊。很少有人分享他們的經驗，但他們沒有多久使用該產品; 很少有人分享他們使用產品的時間，他們的經驗，但不是他們的聯絡資訊。因此，以某種方式或其他方式，一部分資料總是會丟失，這在實時中非常普遍。

現在來看看如何使用Pandas庫處理缺失值(如NA或NaN)。

# 使用pandas庫處理資料中的缺失值 

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(5,3),
index =['a','c','e','f','h'],columns=['one','two','three'])
df = df.reindex (['a','b','c','d','e','f','g','h'])
#使用reindex，建立了一個缺失值的DataFrame
print(df)

輸出結果：

         one        two      three
a   0.077988   0.476149   0.965836 

b        NaN        NaN        NaN
c  -0.390208  -0.551605  -2.301950
d        NaN        NaN        NaN
e  -2.000303  -0.788201   1.510072
f  -0.930230  -0.670473   1.146615
g        NaN        NaN        NaN
h   0.085100   0.532791   0.887415

一、檢查缺失值，pandas提供了isnull()和notnull()函式

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5 
,3),index=['a','c','e','f','h'],
                  columns=['one','two','three'])
df = df.reindex(['a','b','c','d','e','f','g','h'])
print(df['one'].isnull()) #檢查第一列中是否為null,是返回false,否返回true

輸出結果：

a  False
b  True
c  False
d  True
e  False
f  False
g  True
h  False
Name: one, dtype: bool

二、清理/填充缺少資料，fillna函式可以通過幾種方式用非空資料“填充”NA值
1、用標量值將”NaN”替換為0

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(3,3),index=['a','c','d'],
                   columns=['one','two','three'])
df = df.reindex(['a','b','c'])
print(df)
print("NaN replace with '0':")
print(df.fillna(0)) #這裡我們用0填充，當然也可以用其他值填充

輸出結果：

        one       two     three
a  0.538547 -0.116047 -0.413233
b       NaN       NaN       NaN
c  0.323509 -0.709677  1.243817
NaN replace with '0':
        one       two     three
a  0.538547 -0.116047 -0.413233
b  0.000000  0.000000  0.000000
c  0.323509 -0.709677  1.243817

2、正向和反向填充NAN

# pad/fill:向前填充方法
# bfill/backfill:向後填充方法
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5,3),index = ['a','c','e','f','h'],
                  columns = ['one','two','three'])
df = df.reindex(['a','b','c','d','e','f','g','h'])
print('向前填充結果：\n',df.fillna(method='pad')) #該行根據前一行的值填充
print('向後填充結果：\n',df.fillna(method='bfill'))#該行根據後一行的值填充

輸出結果：

向前填充結果：
         one       two     three
a -0.989952  1.692963 -1.115485
b -0.989952  1.692963 -1.115485
c -0.218375 -0.090271 -0.381034
d -0.218375 -0.090271 -0.381034
e  0.748527  1.635351 -1.993645
f -0.525781  1.185460 -0.728045
g -0.525781  1.185460 -0.728045
h -0.706908 -0.832507  1.465190
向後填充結果：
         one       two     three
a -0.989952  1.692963 -1.115485
b -0.218375 -0.090271 -0.381034
c -0.218375 -0.090271 -0.381034
d  0.748527  1.635351 -1.993645
e  0.748527  1.635351 -1.993645
f -0.525781  1.185460 -0.728045
g -0.706908 -0.832507  1.465190
h -0.706908 -0.832507  1.465190

3、刪除缺失值：如果只想排除缺少的值，則使用dropna()函式和axis引數。
預設情況下，axis = 0，即沿著一行行查詢，這意味著如果行內的任何值是NA，那麼排除整行。

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5,3),index = ['a','c','e','f','h'],
                  columns = ['one','two','three'])
print(df)
df = df.reindex(['a','b','c','d','e','f','g','h'])
print(df.dropna())

輸出結果：

        one       two     three
a -1.346925 -1.281311 -0.880618
c  0.494288 -0.822928  0.349231
e  0.519051 -0.459518  0.161189
f  0.143254  1.976580 -0.462714
h -1.615947  0.838520 -0.020003
        one       two     three
a -1.346925 -1.281311 -0.880618
c  0.494288 -0.822928  0.349231
e  0.519051 -0.459518  0.161189
f  0.143254  1.976580 -0.462714
h -1.615947  0.838520 -0.020003

4、替換丟失或通用值，用標量值替換NA與fillna()函式的效果相同。

import pandas as pd
import numpy as np
df = pd.DataFrame({'one':[10,20,30,40,50,2000],
                   'two':[1000,0,30,40,50,60]})
print('替換之前的結果：\n',df)
print ('替換之後的結果：\n',df.replace({1000:10,2000:60}))

輸出結果：

替換之前的結果：
     one   two
0    10  1000
1    20     0
2    30    30
3    40    40
4    50    50
5  2000    60
替換之後的結果：
    one  two
0   10   10
1   20    0
2   30   30
3   40   40
4   50   50
5   60   60

以上為對資料集中的缺失值常用的處理方法。

Python資料操作—資料清理

資料丟失在現實生活中是一個問題。機器學習和資料探勘等領域由於資料缺失導致資料質量差，因此在模型預測的準確性方面面臨嚴峻的問題。在這些領域，缺失值處理是使模型更加準確和有效的關鍵。什麼情況下，以及什麼時候資料會丟失？讓我們考慮一個產品的線上調查。很多

python 基礎操作--資料型別

一、變數　　1、定義：將運算的中間結果暫存到記憶體，以便後續程式呼叫。　　2、命名規則　　　　1、變數由字母、數字、下劃線搭配組合而成；　　　　2、不可以用數字開頭，也不能全都是數字；　　　　3、不能是python 關鍵字，這些符號和字母已經被python佔用，不可以被更改；　　　　4

Python文字操作---資料篩選

1.匯入編碼模組 2.open()：方法開啟文字 3.find()：文字中找到相符和的值 4.write()：寫入檔案 #字串檢索， #find函式找到返回位置 import codecs

Python文字操作---資料清洗

1.匯入編碼模組：codecs 2.資料清洗：把資料進行處理分類，可進行讀寫到文字上或者資料庫上 3.split()：對特定的子串進行切割 import codecs filepath=r"Z:\

EF 學習系列三資料操作資料載入及EF中執行Sql

1、實體狀態我們通過EF來對資料庫進行操作並持久化到資料庫，那麼EF必然通過EF上下文來維護實體的狀態，明確知道每一個狀態所對應的操作。也就是說EF通過上下文負責跟蹤實體的狀態。EF實體狀態存在名稱空間System.Data.Entity下的EntityState列舉中 1.1、Added Add

第4章：介紹python物件型別/4.1 python的核心資料型別/4.2.1 字串獲取操作、字串合併和重複操作

字串獲取操作概念：用雙引號或者單引號括起來的一串字元字串按下標獲取操作定義字串 >>> S="abcd" 給字串求長度 >>> len(S) 4

Python檔案及資料夾操作

轉載自：http://www.cnblogs.com/feeland/ 　　　　　　我們經常會與檔案和目錄打交道，對於這些操作，python可以使用 os 及 shutill 模組，其中包含了很多操作檔案和目錄的函式。　　　　os 可以執行簡單的資料夾及檔案操作，引入用 &n

影象識別資料集處理——python 檔案操作

通過 excel 獲取資料集資料集放在一個總資料夾中，excel中對影象標識做了記錄，我們需要通過讀取excel中的影象檔名來獲取相應的影象。例項檔案結構如下：源目錄 ├── 二級目錄1 │ ├──example_01.jpg │ └──example_02.

利用Python進行資料分析之第七章記錄2 資料規整化:清理、轉換、合併、重塑

索引上的合併 DataFrame中傳入引數left_index=True或者right_index=True（或者兩個都傳入）,表示DataFrame的index（索引）被用作兩個DataFrame連線的連線鍵，如下： dataframe1 = DataFrame({'key':

利用Python進行資料分析之第七章記錄資料規整化:清理、轉換、合併、重塑

合併資料集： pandas物件中的資料可以通過一些內建的方式進行合併： pandas.merge可根據一個或多個鍵將不同DataFrame中的行連線起來。SQL或其它關係型資料庫的使用者對此應該會比較熟悉，因為它實現的就是資料庫的連線操作。 pandas.concat可以沿著一條軸將多個

利用python 將 mysql 資料進行抽取並清理成標準格式後存入MSSql 資料中

from pymongo import MongoClientfrom pymysql import connectimport pymssqlfrom datetime import datetime, timedeltaimport time Nagios 資料庫的IP 地址 NagiosDB_IP

ubuntu16.04下 python程式設計修改資料夾許可權、讀寫資料庫等操作

1. python程式設計修改資料夾許可權 import os os.system('chmod 777 ', file) 擴充套件： Linux系統中，每個使用者的角色和許可權劃分的很細緻也很嚴格，每個檔案（目錄）都設有訪問許可許可權，利用這種機制來決定某個使用者通過某種方

Python 檔案和資料夾的操作 shutil 模組

Python shutil模組 shutil模組操作移動、改名和刪除檔案和資料夾複製檔案 import shutil import os optSrcPath = "C:\\Users\\Administrator\\Desktop\\opt"#測試檔案目錄 # optDes

python檔案和資料夾的操作os和shutil模組

python檔案和資料夾的操作我們對檔案和資料夾經常會做一些操作，python 的os和shutil模組，可以實現很多的檔案和目錄的操作。引入import os。 os可以實現簡單的資料夾和檔案操作。 shutil可以實現複雜的檔案操作，比如對檔案的拷貝和複製。引入import

Python 檔案和資料夾的操作 shutil 模組

Python shutil模組 shutil模組操作移動、改名和刪除檔案和資料夾複製檔案 import shutil import os optSrcPath = "C:\\Users\\Administrator\\Desktop\\opt"#測試檔案目錄

第4章：介紹python物件型別/4.1 python的核心資料型別/4.5 元組以及檔案操作

易學筆記十年IT經驗個人學習筆記分享: 開發語言：C/C++/JAVA/PYTHON/GO/JSP WEB架構：Servlets/springMVC/springBoot/springClound 容器架構:Docker容器/Docker叢集/Docker與微服務整合/

python對同一個資料夾下進行遍歷操作，跳過處理過的

import os path="路徑" #此處路徑為包含你要處理檔案的路徑 for filename in os.listdir(path): (fname,fename)=os.path.splittext(filename) if(fename=='.j

Python資料操作—單詞標記化

單詞標記是將大量文字樣本分解為單詞的過程。這是自然語言處理任務中的一項要求，每個單詞需要被捕獲並進行進一步的分析，如對特定情感進行分類和計數等。自然語言工具包(NLTK)是用於實現這一目的的庫。在繼續使用python程式進行字詞標記之前，先安裝NLTK。

python——資料操作

MySQL資料庫操作連線資料庫 import pymysql #連線資料庫 conn=pymysql.connect(host="127.0.0.1",user="root",passwd="shenjun",db="s12day") cur=conn

python/numpy/pandas資料操作知識與技巧

pandas針對dataframe各種操作技巧集合: filtering: 一般地，使用df.column > xx將會產生一個只有boolean值的series，以該series作為dataframe的選擇器(index/slicing)將直接選中該series中所有value為true的記錄。

Python資料操作—資料清理

相關推薦