1. 程式人生 > >R語言|資料預處理--3缺失值離群點處理

R語言|資料預處理--3缺失值離群點處理

查詢包含缺失值的總行數

缺失值包括:NANULL0值等

1NA值處理:

判斷為NA的座標:which(is.na(a))[1] 4注意:任意值與NA算術操作都為NA

> n.missing <- rowSums(is.na(cup98))#求每行的缺失值總個數

> tab.missing<- table(n.missing)

> tab.missing

n.missing

    0    1     2     3    4     5     6    7

 6782 36864 23841 13684 11716  2483   41     1

2

、查詢缺失值的分佈及處理

data <- read.csv(file="F:\\R\\資料集\\P2P\\信用評分模型\\cs-training.csv", row.names=F)

#去掉id

data1 <- data[,-1]

head(data1)

#對列進行重新命名

names(data1) <-c("y", paste("x", 1:10, sep = ""))

2)檢視資料集的缺失值分佈

library(mice)

#matrixplot(data1)

md.pattern(data1)

#可以看到x5變數和x10變數,即MonthlyIncome變數和NumberOfDependents

兩個變數存在缺失值;monthlyincome列共有缺失值29731個,numberofdependents3924

3)對於缺失值的處理方法非常多,例如基於聚類的方法,基於迴歸的方法,基於均值的方法,其中最簡單的方法是直接移除,但是在本文中因為缺失值所佔比例較高,直接移除會損失大量觀測,因此並不是最合適的方法。在這裡,我們使用KNN方法對缺失值進行填補。

library(DMwR)

traindata <-knnImputation(data1,k=10,meth = "weighAvg")

#write.csv(traindata, "F:\\R\\資料集\\P2P\\信用評分模型

\\cs-training-na.csv")

str(traindata)

相關推薦

R語言|資料處理--3缺失處理

查詢包含缺失值的總行數 缺失值包括:NA,NULL和0值等 1、NA值處理: 判斷為NA的座標:which(is.na(a))[1] 4注意:任意值與NA算術操作都為NA > n.missing <- rowSums(is.na(cup98))#求每行的缺失

R語言|資料處理--4變數分析及相關性

因變數與自變數之間的關係包括兩種:自變數為數值型別和分類型別 請參考R專案客戶回覆預測與效益最大化 1、分別檢視資料的屬性為數值型和因子型別的屬性 which(sapply(cup98, is.numeric)) > idx.num  ODATEDW     DOB

R多個箱線圖並標註

在學探索性資料分析的時候,老師讓我們做多個箱線圖,並且找出其離群點並標註出來,我是R語言的小菜鳥,鼓搗了一天寫出來了一個小程式,希望需要這個的人有所幫助。Sweden=c(7.87,4.22,2.49,0.94,0.89,0.87,0.81,0.78,0.71,0.69)Ne

資料分析 第五篇:檢測

離群點(outlier)是指和其他觀測點偏離非常大的資料點,離群點是異常的資料點,但是不一定是錯誤的資料點。確定離群點對於資料分析會帶來不利的影響,比如,增大錯誤方差、影響預測和影響正態性。 從散點圖上可以直觀地看到離群點,離群點是孤立的一個數據點;從分佈上來看,離群點遠離資料集中其他資料點。  

資料處理缺失處理

資料預處理.1 缺失值處理 刪除法 刪除小部分樣本,在樣本量大時(刪除部分所佔比例小於5%時)可以使用 插補法 —均值插補:分為定距型(插入均值)和非定距型(眾數或者中值) —迴歸插補:線性和非線性迴歸 —極大似然估計M

python資料處理缺失簡單處理,特徵選擇

我們在進行模型訓練時,不可避免的會遇到某些特徵出現空值的情況,下面整理了幾種填充空值的方法 1. 用固定值填充 對於特徵值缺失的一種常見的方法就是可以用固定值來填充,例如0,9999, -9999, 例如下面對灰度分這個特徵缺失值全部填充為-99 data['灰

R語言資料探勘(2) 資料處理

一 、資料清理 檢查資料質量的重要性 除了在建立模型之前需要完成資料清理,在對資料結構的探索和對模型的描述和預測過程中都需要不斷檢查資料質量 探索的過程中,出現任何異常情況都需要解釋和處理。 比如分類變數應該注意頻率特別低的類別,它可能是錯誤分類或者原本屬於相鄰類別的資料

機器學習(一):用sklearn進行資料處理缺失處理資料標準化、歸一化

在我們平時進行資料資料探勘建模時,一般首先得對資料進行預處理,其中就包括資料缺失值、異常值處理、資料的標準化、歸一化等等。 下面主要介紹如何對一個數據檔案進行資料的缺失值處理、標準化和歸一化 MID_SP MID_AC MID_R25 MID_COND LITHO1 55.

機器學習 第2篇:資料處理缺失

在真實的世界中,缺失資料是經常出現的,並可能對分析的結果造成影響。我們需要了解資料缺失的原因和資料缺失的型別,並從資料中識別缺失值,探索資料缺失的模式,進而處理缺失的資料。本文概述處理資料缺失的方法。 一,資料缺失的原因 首先我們應該知道:資料為什麼缺失?資料的缺失是我們無法避免的,可能的原因有很多種,博主總

R語言︱異常檢驗、分析、異常處理

fit sta 指標 篩選 繪圖 都是 圖形 class 分組 一、異常值檢驗 異常值大概包括缺失值、離群值、重復值,數據不一致。 1、基本函數 summary可以顯示每個變量的缺失值數量. 2、缺失值檢驗 關於缺失值的檢測應該包括:缺失值數量、缺失值比例、

R語言資料處理 之 建立新變數

初步的資料處理,通常要建立新的變數。其實,建立新變數可以: 避開未經處理的資料未有所需資料的難處; 變換一些已有資料,以更好的為下一步分析作準備; 而常建立的新變數有:  缺失值指標 (Missingness indicators) :指出在哪些地方有資料缺失  分段

拉格朗日插法對資料探勘中缺失處理

本文參考《Python資料分析與挖掘實戰》一書。 對於資料探勘的缺失值的處理,應該是在資料預處理階段應該首先完成的事,缺失值的處理一般情況下有三種方式:1.刪掉缺失值資料。2不對其進行處理 3.利用插補法對資料進行補充第一種方式是極為不可取的,如果你的樣本數夠多,刪掉資料較少

【轉載】R語言資料處理——資料合併與追加

資料結構的塑造是資料視覺化前重要的一環,雖說本公眾號重心在於資料視覺化,可是涉及到一些至關重要的資料整合技巧,還是有必要跟大家分享一下的。 在視覺化前的資料處理技巧中,匯入匯出、長寬轉換已經跟大家詳細的介紹過了。 今天跟**家分享資料集的合併與追加,並且這裡根據所依賴函式的處理效率,給

天氣資料處理缺失異常處理

lows_highs.py import csv from matplotlib import pyplot as plt from datetime import datetime filename='death_valley_2014.csv' with open(f

R語言資料處理(二)字元分隔

現有match表, v1 v2 1 001;02 2 03,004;001 3 003;002,001 我想把match表中V2這一列的資料分隔開,形成表match_new: V1

資料分析中的缺失處理

沒有高質量的資料,就沒有高質量的資料探勘結果,資料值缺失是資料分析中經常遇到的問題之一。當缺失比例很小時,可直接對缺失記錄進行捨棄或進行手工處理。但在實際資料中,往往缺失資料佔有相當的比重。這時如果手工處理非常低效,如果捨棄缺失記錄,則會丟失大量資訊,使不完全觀測資料與完

R語言:as.Date出現NA

日期格式 -1 技術分享 log 解決辦法 .com 大寫 出現 data > head(as.Date(data$日期,‘%y%M%D‘))[1] NA NA NA NA NA NA data日期格式如下: 解決辦法: > head(as.Date(da

缺失處理——尋找缺失

afr 行記錄 尋找 一個 print () one log 說了 最近在做天池的一個比賽,真是應了那句俗語‘一竅不得,少掙幾百’。在尋找缺失值的時候看到了隊友寫的代碼,感觸頗多,想記錄下來。 缺失值處理一直是影響模型效果的重要因素,聽過好多前輩說過好的模型不如好的數據。

R語言-資料框分組求平均值

【技術關鍵】 1、從excel把資料讀到資料框 2、演算法實現將資料框的一些資料合為新的資料並組成新的資料框 3、將處理結果,即新的資料框儲存到excel檔案(或.csv) 4、將繪圖結果輸出到PDF檔案儲存 最近在嘗試分析近日的環境溫溼度變化; 雖然裝置只運行了48小時左右;

R語言-資料結構

主站:https://lartpang.github.io/ 之前一陣子,在EDX上學習了R語言的一門基礎課程,這裡做個總結。這門課程主要側重於R的資料結構的介紹,當然也介紹了它的基本的繪圖手段。 工作空間相關 ls() ## character(0) rm