異常值判斷處理

阿新 • • 發佈：2018-12-08

1、簡單統計量分析
2、3σ準則

data <- rnorm(20)
plot(data,type = "l",lwd=1.5,ylim = c(-4,4),xlim = c(0,23),
     xlab=NA,ylab=NA,main = "質量控制圖")
lines(rep(mean(data),20),lwd=1.8)
text(21,mean(data),"均值線")
lines(rep(mean(data)-3*sd(data),20),lty=2,col="red",lwd=1.8)
text(21,mean(data)-3*sd(data),labels = "控制下限",col = "red")
lines(rep(mean(data)+3*sd(data),20),lty=2,col="blue",lwd=1.8)
text(21,mean(data)+3*sd(data),labels = "控制上限",col = "blue")

在這裡插入圖片描述

data1 <- read.csv("每日付費及留存資料.csv",header = TRUE)
library(qcc)
attach(data1)
qcc(七日留存率,type="xbar.one",labels=日期,title="新增使用者第7日留存率的單值-均值質量監控圖",
         xlab="data",ylab="第七日留存率")

在這裡插入圖片描述

qcc(data, type, sizes, center, std.dev, limits,
data.name, labels, newdata, newsizes, newdata.name,
newlabels, nsigmas = 3, confidence.level,
rules = shewhart.rules, plot = TRUE, …)
type:
Statistic charted Chart description
“xbar” mean means of a continuous process variable 均值控制圖
“R” range ranges of a continuous process variable 均值-極差控制圖
“S” standard deviation standard deviations of a continuous variable 均值-標準差控制圖
“xbar.one” mean one-at-time data of a continuous process variable 單值-均值控制圖
“p” proportion proportion of nonconforming units 可變樣本量的轉化率
“np” count number of nonconforming units 固定樣本量的轉化率
“c” count nonconformities per unit 固定樣本量的不合格數
“u” count average nonconformities per unit 可變樣本量的不合格數
“g” count number of non-events between events 事件間的非事件數

nsigmas = 3 指定用於計算控制限制的σ的數量
3、箱線圖分析

boxplot.stats(七日留存率)

在這裡插入圖片描述

idx <- which(七日留存率 %in% boxplot.stats(七日留存率)$out)
boxplot(七日留存率,col="violet")
text(1.1,boxplot.stats(七日留存率)$out,labels=paste(data1[idx,"日期"],
                                               data1[idx,"七日留存率"]),
     col="darkgreen")

在這裡插入圖片描述
4、聚類分析
利用多個數值變數

data2<-read.csv("玩家玩牌資料樣本.csv")
#歸一化處理
data3 <- round(apply(data2[,-1], 2,function(x) (x-min(x))/(max(x)-min(x))),4)
data3 <- data.frame(data3)
row.names(data3) <- data2$使用者id
分群
result <- kmeans(data3,3)
centers <- result$centers[result$cluster,]
distances <- sqrt(rowSums((data3-centers)^2))
找出距離最大的
outliers <- order(distances,decreasing = TRUE)[1:5]
print(outliers)
rownames(data3[outliers,])
plot(data3$玩牌局數,data3$正常牌局,pch=result$cluster,axes=FALSE,
     xlab="玩牌局數",ylab="正常牌局")
axis(1,labels = F)
axis(2,labels = F)
points(result$centers[,c("玩牌局數","正常牌局")],pch=16,cex=1.5)
points(data3[outliers,c("玩牌局數","正常牌局")],pch="*",col="red",cex=1.5)
text(data3[outliers,c("玩牌局數","正常牌局")],labels=rownames(data3[outliers,]))

在這裡插入圖片描述

異常值判斷處理

異常值判斷處理

資料預處理--缺失值和異常值的處理

第五篇：數據預處理(二) - 異常值處理

R語言︱異常值檢驗、離群點分析、異常值處理

【Python數據分析基礎】: 異常值檢測和處理

【python學習筆記】42：Pandas資料缺失值/異常值/重複值處理

hive：空值、NULL判斷、空值的處理

資料處理--缺失值處理&異常值處理

基於R語言的缺失值及異常值處理

時間序列的異常值處理

hive之異常值處理

pandas學習(常用數學統計方法總結、讀取或保存數據、缺省值和異常值處理)

R語言-處理異常值或報錯的三個示例

記一次nginx 502異常處理的判斷處理

python資料清洗（缺失值與異常值處理）

Python中Requests模組的異常值處理

機器學習基礎（三十六）—— 非規整資料（值缺失、異常值）的處理

excel求和遇到異常值（#DIV/0!、#N/A等）的兩種處理辦法

PostgreSQL-14-異常值處理

Web層框架對網站中所有異常的統一處理

異常值判斷處理

相關推薦