描述統計學：分布形態、異常值

阿新 • • 發佈：2018-11-09

間距差距樣本 href 9.1 tle 檢測成年人 series

分布形態

一個重要的數值度量被稱為偏度。

z-分數

z-分數被稱為標準化數值

$技術分享圖片$

z-分數 = 平均數的離差 / s代表樣本標準差

切比雪夫定理

能使我們指出與平均數的距離在某個特定個數的標準差之內的數據值所占的比例

看實例：

假設100個學生平均成績70，標準差5

那麽你要預估大概58-82的區間人數大概多少

z=（58-70）/5 = -2.4
z =(82-70)/5=+2.4

(1-1/(2.4)^2)=0.826

至少有82.6%的學生考試成績在58-82分中間。

經驗法則

人們發現許多數據具有類似圖3-4所示的對稱的峰形或鐘形分布。當數據被認為近似於這種分布時，就可以運用經驗法則。

對於具有鐘形分布的數據：

大於68%的數據值與平均數的距離在1個標準差之內

大於95%的數據值與平均數的距離在2個標準差之內

幾乎所有的數據值與平均數的距離在3個標準差之內

檢測異常值

數據集中有一個或多個數值異常大或異常小，被稱為異常值。

異常值可能是一個被錯誤記錄的數據值，也可能是一個被錯誤包含在數據集中的觀測值。如果是這樣，則可以刪除，也可能就是一個反常的數據值，它被正確記錄並且屬於數據集，在這種情況下，它應該被保留。

標準化數值(z-分數)可以用來確認異常值。

對鐘形分布的數據，建議吧大於或小於3的任何數值都視為異常值。

檢測異常值是檢查數據有效性的一個工具

練習

考慮數據值為10，20，12，17，16的一個樣本，計算這5個觀測值的每一個的z-分數。

import numpy as np
import pandas as pd
from pandas import Series
test_data = [10,20,12,17,16]
data = Series(test_data)
data

# 標準差
st= data.std()
4.0

# 平均數
mea= data.mean()
15.0

# z-分數
z = (data - mea)/ st
z

0   -1.25
1    1.25
2   -0.75
3    0.50
4    0.25

考慮平均數為30，標準差為5的一個樣本，利用切比雪夫定理來確定在下列範圍內的數據所占的比例。

a. 20 - 40 b. 15-45 c. 22-38 d. 18-42 e. 12-48

test2_data = [20,40,15,45,22,38,18,42,12,48]

data2 = Series(test2_data)

z1 = (data2-30)/5
z1

0   -2.0
1    2.0
2   -3.0
3    3.0
4   -1.6
5    1.6
6   -2.4
7    2.4
8   -3.6
9    3.6

p = 1-1/(z1*z1)

0    0.750000
1    0.750000
2    0.888889
3    0.888889
4    0.609375
5    0.609375
6    0.826389
7    0.826389
8    0.922840
9    0.922840
dtype: float64

?a.20-40的比例為75%
b.15-45的比例為88.89%
c.22-38的比例為60.93%
d.18-42的比例為82.6%
e.12-48的比例為92.28%

一項全美型的調查結果顯示，美國成年人每天平均睡眠6.9小時，假設標準差為1.2小時。
a. 每天睡眠時間在4.5-9.3小時的成年人比例。 b. 3.9-9.9小時的成年人比例。
c. 假設睡眠時間服從鐘形分布。利用經驗法則計算每天在4.5-9.3小時的成年人比例。這個結果如何與切比雪夫定理得到的結果比較？

test3 = [4.5,9.3,3.9,9.9]
data = Series(test3)
z3 = (data-6.9)/1.2
z3

0   -2.0
1    2.0
2   -2.5
3    2.5

p3 = 1-1/(z3*z3)
p3
0    0.75
1    0.75
2    0.84
3    0.84

4.5-9.3小時的成年人比例75%
3.9-9.9小時的成年人比例84%

根據經驗法則，發現95%的人睡眠4.5-9.3小時。

技術分享圖片

# 算出標準差距離
615-515/100 = 1
# 大約68%的學生超過615分
715-515/100 = 2
# 大約95%的學生超過715分

# 小於615分的大概為32%，裏面415-515分比例又在第一個標準間為68%，則在415-515分的比例是25%。

# 315到615的比例為95%*32% = 30%

技術分享圖片

test5 = [13,12,8,3,8,2,18]
data5 = Series(test5)
data5.mean()
平均數9.14
data5.median()
中位數8
data5.mode()
眾數8
data5.max()-data5.min()
極差16
data5.std()
標準差5.66
# 判斷是否異常
(18-9.14)/5.66 = 1.56
# 標準差距離在2個以內，不算異常值

d. 無法看出

技術分享圖片

score = [4.00,4.12,3.82,4.00,4.56,4.32,4.33,4.50,4.64,4.20,4.67,2.14,4.09,4.17,4.88,4.26,2.32,4.50,4.17,2.17]
score_data = Series(score)
score_data.mean()
平均數3.993

score_data.median()
中位數4.18

score_data.quantile([0.25,0.75])
0.25    4.0
0.75    4.5
dtype: float64
score_data.std()
標準差 0.8113672670901033

偏度為-1.67,形態為適度偏左形狀，評分偏低的較多。

zAllison = 0.15
zOmni = -2.06

# 判斷是否異常值
(2-3.993)/0.81 = -2.460
(5-3.993)/0.81 = 1.24
看見最大和最小的範圍內都在第三標準間距，沒有異常值

描述統計學：分布形態、異常值

間距差距樣本 href 9.1 tle 檢測成年人 series 分布形態一個重要的數值度量被稱為偏度。 z-分數 z-分數被稱為標準化數值 z-分數 = 平均數的離差 / s代表樣本標準差切比雪夫定理能使我們指出與平均數的距離在某個特定個數的標準差之內的數據

描述統計學：分佈形態、異常值

分佈形態一個重要的數值度量被稱為偏度。 z-分數 z-分數被稱為標準化數值 z-分數 = 平均數的離差 / s代表樣本標準差切比雪夫定理能使我們指出與平均數的距離在某個特定個數的標準差之內的資料值所佔的比例看例項：假設100個學生平均成績70，標準差5 那麼你要預估大概58-8

05：分布式文件系統、 FastDFS原理、 FastDFS配置及應用

ble opp +++ load tin 分布式存儲 isa 4.2 libev 部署分布式存儲服務一、分布式文件系統介紹二、配置分布式存儲服務2.1 配置主控節點(111) 裝包修改配置文件啟動服務查看端口]# yum -y install

【Hadoop 分布式部署五：分布式部署之分發、基本測試及監控】

conda -s 啟動上啟 res 點擊 mon web頁面 mapr 1.對 hadoop 進行格式化　　　　到 /opt/app/hadoop-2.5.0 目錄下　　執行命令： bin/hdfs namenode -format 　　　　　　執行的效果圖

Zookeeper技術：分布式架構詳解、分布式技術詳解、分布式事務

cas 序列號隔離性 googl 管理系實現分布式數據庫備份分布式文件系一、分布式架構詳解 1、分布式發展歷程 1.1 單點集中式特點：App、DB、FileServer都部署在一臺機器上。並且訪問請求量較少 1.2? 應用服務和數據服務拆分 ?特點：App、

描述統計學：極差、方差、標準差

變異程度的度量（離散程度的度量）交貨時間的變異性造成按時完成生產任務的不確定性極差極差=最大值-最小值最簡單的變異程度的度量但很少單獨用來度量變異程度。僅有兩個觀測值，異受極端值的影響四分位數間距能夠克服極端值的影響，因為四分位數是中間的50%資料的極差. 方差是用所有資

描述統計學：五數概括法、箱形圖

五數概括法通俗的說就是最小，第一四分位，第二四分位，第三四分位，最大數箱形圖箱形圖是基於五數概括法的資料的一個圖形彙總。箱形圖的說明： (1)邊界分別為第一四分位數和第三四分位數 (2)在箱體上中位數即第二四分數處畫垂線 (3)利用四分位數間距IQR = Q3-Q1,找到界限，超出即為異

python3繪圖示例2（基於matplotlib：柱狀圖、分布圖、三角圖等）

ims 標準 and odi dom2 lam you vars update #!/usr/bin/env python# -*- coding:utf-8 -*-from matplotlib import pyplot as pltimport numpy as np

4-3 描述統計學：總體、樣本和誤差，基本統計量（版本：py3）

相關概念 1.取樣相關概念總體：研究物件的全體樣本：從總體中的隨機抽樣取樣偏差：是由於抽樣過程中沒有達到足夠隨機而產生抽樣的方式會嚴重影響樣本的隨機性，從而影響對總體的預測，抽樣的方法有多種，可以使用一定的方法來減小取樣誤差，然而取樣誤差是無法避免的。 2.誤

八、 vSphere 6.7 U1(八)：分布式交換機配置（vMotion遷移網段）

適配 ffffff mark water 設置 oss 端口組可用命名 1.新建分布式交換機TovMotion 使用2張網卡，所以，上行鏈路數為2，端口組命名方便於見名知義，單擊”NEXT”3.完成分布式交換機TovMotion添加4.為分布式交換機TovMotion

精華【分布式、微服務、雲架構、dubbo+zookeeper+springmvc+mybatis+shiro+redis】分布式大型互聯網企業架構！

net ios 系統數據庫權限分配容器移動 activit str 重復平臺簡介 Jeesz是一個分布式的框架，提供項目模塊化、服務化、熱插拔的思想，高度封裝安全性的Java EE快速開發平臺。 Jeesz本身集成Dubbo服務管控、

精華分布式、微服務、雲架構dubbo+zookeeper+springmvc+mybatis+shiro+redis分布式大型互聯網企業架構！

分布式、微服務、雲架構 spring springmvc dubbo+zookeeper spring mvc+mybatis redis分布式緩存平臺簡介 Jeesz是一個分布式的框架，提供項目模塊化、服務化、熱插拔的思想，高度封裝安全性的Java EE快速開發平臺。

精華分布式、微服務、雲架構dubbo+zookeeper+springmvc+mybatis+shiro+redis分布式大型互聯網企業架構

分布式、微服務、雲架構 spring springmvc spring mvc+mybatis dubbo+zookeeper redis分布式緩存平臺簡介 Jeesz是一個分布式的框架，提供項目模塊化、服務化、熱插拔的思想，高度封裝安全性的Java EE快速開發平臺。

精華【分布式、微服務、雲架構、dubbo+zookeeper+springmvc+mybatis+shiro+redis分布式大型互聯網企業架構！

平臺簡介 Jeesz是一個分布式的框架，提供項目模塊化、服務化、熱插拔的思想，高度封裝安全性的Java EE快速開發平臺。 Jeesz本身集成Dubbo服務管控、Zookeeper註冊中心、Redis分布式緩存技術、FastDFS分布式文件系統、A

拉開大變革序幕（下）：分布式計算框架與大數據

ble itl skip 下一代 .bashrc add sum 輸出 sda 由於對大數據處理的需求。使得我們不斷擴展計算能力，集群計算的要求導致分布式計算框架的誕生。用便宜的集群計算資源在短短的時間內完畢以往數周甚至數月的執行等待，有人說誰掌握了龐大

Spring Cloud 入門教程(四)：分布式環境下自動發現配置服務

.html article png discover ice conf label tail 註釋前一章，我們的Hello world應用服務，通過配置服務器Config Server獲取到了我們配置的hello信息“hello world”. 但自己的配置文件中必須配

Hadoop學習------Hadoop安裝方式之(三)：分布式部署

之間 root用戶 jar .sh author tables eth1 report 標識這裏為了方便直接將單機部署過的虛擬機直接克隆，當然也可以不這樣做，一個個手工部署。創建完整克隆——>下一步——>安裝位置。等待一段時間即可。我這邊用了三臺虛擬

流程控制：分布式並行任務流程控制

time aid ges stat rdquo net 不同的分布式部署 red 背景：目前工作中遇到一個比較急，又有點費事的工作任務： 1）目前系統中已經已經包含了一些比較完善的部分模塊，但是模塊之間沒有一個控制流程來管理，就造成程序沒有辦法自動化； 2

三分鐘讀懂TT貓分布式、微服務和集群之路

lin down 負載參考業務應該要求大型網站技術架構模型三分鐘讀懂TT貓分布式、微服務和集群之路針對新手入門的普及，有過大型網站技術架構牛人路過，別耽誤浪費了時間，閱讀之前，請確保有一定的網絡基礎，熟練使用Linux，瀏覽大概需要3-5分鐘的時間

架構師提升篇：分布式系統中，如何提升系統性能？

架構師在分布式系統中，平衡業務計算的壓力分布，減少網絡上的數據流動，是一種提升性能的手段，請看下面的例子。1）案例背景某“機械設計研究所”歷史上在管理模式上采用傳統的層次化垂直結構。但是近年來，隨著用戶對產品更新換代的要求越來越快、質量要求越來越高，在競爭日益劇烈、外部壓力日益增大的形勢下，該所在管理模型上重

描述統計學：分布形態、異常值

分布形態

z-分數

切比雪夫定理

經驗法則

大於68%的數據值與平均數的距離在1個標準差之內

大於95%的數據值與平均數的距離在2個標準差之內

幾乎所有的數據值與平均數的距離在3個標準差之內

檢測異常值

練習

相關推薦