機器學習練習（五）——高斯異常點檢測

阿新 • • 發佈：2019-01-02

#coding:utf-8
import numpy as np
from sklearn.covariance import EllipticEnvelope
from sklearn.svm import OneClassSVM
import matplotlib.pyplot as plt
import matplotlib.font_manager
from sklearn.datasets import load_boston
'''
機器學習 魯棒的基於高斯概率密度的異常點檢測(novelty detection) ellipticalenvelope演算法

演算法理解：
這個演算法的思想很好理解, 就是求出訓練集在空間中的重心, 和方差, 然後根據高斯概率密度估算每個點被分配到重心的概率.

資料說明：
[
0CRIM,城鎮人均犯罪率,
1ZN,佔地面積超過25,000平方呎的住宅用地比例,
2INDUS,每個城鎮非零售商業地的比例,
3,查爾斯河虛擬變數（= 1有河;否則為0）,
4,一氧化氮濃度（百萬分之一）,
5,每間住宅的平均客房數,
6,1940年之前建成的自用單位比例,
7,加權距離到五個波士頓就業中心,
8,徑向公路的可達性指數,
9,每10,000美元的稅賦全值財產稅率,
10,學生與教師的比率,
11,1000*(Bk-0.63)^2 其中Bk是城鎮中黑人的比例,
12,％降低人口狀態,
13,自住房價值在1000美元的中位數,[資料不包含該項]
]
['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD','TAX', 'PTRATIO', 'B', 'LSTAT']
[0.00632, 18.0, 2.31, 0.0, 0.538, 6.575, 65.2, 4.09, 1.0, 296.0, 15.3, 396.9, 4.98]
'''
# Get data
#X1[徑向公路的可達性指數,學生與教師的比率,]
X1 = load_boston()['data'][:, [8, 10]]  # two clusters
#X2[每間住宅的平均客房數,降低人口狀態,]
X2 = load_boston()['data'][:, [5, 12]]  # "banana"-shaped

# Define "classifiers" to be used
classifiers = {
    #EllipticEnvelope:一種用於在高斯分散式資料集中檢測異常值的物件。contamination:資料集的汙染量，即資料集中異常值的比例。
    u"經驗協方差": EllipticEnvelope(support_fraction=1,contamination=0.261),
    #基於協方差的穩健估計，假設資料是高斯分佈的，那麼在這樣的案例中執行效果將優於One-Class SVM；
    u"魯棒協方差（最小協方差決定因素）":EllipticEnvelope(contamination=0.261),
    #SVM 利用One-Class SVM，它有能力捕獲資料集的形狀,因此對於強非高斯資料有更加優秀的效果，例如兩個截然分開的資料集；
    "OCSVM": OneClassSVM(nu=0.261, gamma=0.05)}
colors = ['m', 'g', 'b']
legend1 = {}
legend2 = {}

# Learn a frontier for outlier detection with several classifiers
xx1, yy1 = np.meshgrid(np.linspace(-8, 28, 500), np.linspace(3, 40, 500))
xx2, yy2 = np.meshgrid(np.linspace(3, 10, 500), np.linspace(-5, 45, 500))
for i, (clf_name, clf) in enumerate(classifiers.items()):
    plt.figure(1)
    clf.fit(X1)
    #decision_function 計算給定觀察的決策函式
    #我們知道資料集中一部分的異常值。由此我們通過對decision_function設定閾值來分離出相應的部分，而不是使用'預測'方法。
    Z1 = clf.decision_function(np.c_[xx1.ravel(), yy1.ravel()])
    #reshape 將Z1矩陣轉換成 xx1的行列形式
    Z1 = Z1.reshape(xx1.shape)
    #畫函式影象的 contour:表示繪製輪廓 使陣列的等值線圖。水平值自動選擇。
    legend1[clf_name] = plt.contour(xx1, yy1, Z1, levels=[0], linewidths=2, colors=colors[i])
    plt.figure(2)
    clf.fit(X2)
    Z2 = clf.decision_function(np.c_[xx2.ravel(), yy2.ravel()])
    Z2 = Z2.reshape(xx2.shape)
    legend2[clf_name] = plt.contour(xx2, yy2, Z2, levels=[0], linewidths=2, colors=colors[i])

legend1_values_list = list(legend1.values())
legend1_keys_list = list(legend1.keys())

# Plot the results (= shape of the data points cloud)
plt.figure(1)  # two clusters
plt.title(u"實際資料集（波士頓房屋）的異常值檢測")
#畫點圖
plt.scatter(X1[:, 0], X1[:, 1], color='red')

#設定註釋文字框 fc設定透明度
bbox_args = dict(boxstyle="round", fc="0.8")
#arrow_args 表示使用箭頭線
arrow_args = dict(arrowstyle="->")
#控制註解 xy=(24,19)表示箭頭的終點位置 xytext=(13, 10)註解文字框的位置
plt.annotate(u"一些混淆的點", xy=(24, 19),xycoords="data", textcoords="data",xytext=(13, 10), bbox=bbox_args, arrowprops=arrow_args)
plt.xlim((xx1.min(), xx1.max()))
plt.ylim((yy1.min(), yy1.max()))

#loc 控制說明的擺放位置
plt.legend((legend1_values_list[0].collections[0],
            legend1_values_list[1].collections[0],
            legend1_values_list[2].collections[0]),
           (legend1_keys_list[0], legend1_keys_list[1], legend1_keys_list[2]),
           loc="upper center",
           prop=matplotlib.font_manager.FontProperties(size=12))
plt.ylabel(u"徑向公路的可達性指數")
plt.xlabel(u"學生與教師的比率")

legend2_values_list = list(legend2.values())
legend2_keys_list = list(legend2.keys())

plt.figure(2)  # "banana" shape
plt.title("Outlier detection on a real data set (boston housing)")
plt.scatter(X2[:, 0], X2[:, 1], color='black')
plt.xlim((xx2.min(), xx2.max()))
plt.ylim((yy2.min(), yy2.max()))
plt.legend((legend2_values_list[0].collections[0],
            legend2_values_list[1].collections[0],
            legend2_values_list[2].collections[0]),
           (legend2_keys_list[0], legend2_keys_list[1], legend2_keys_list[2]),
           loc="upper center",
           prop=matplotlib.font_manager.FontProperties(size=12))
plt.ylabel("% lower status of the population")
plt.xlabel("average number of rooms per dwelling")

plt.show()

機器學習練習（五）——高斯異常點檢測

#coding:utf-8 import numpy as np from sklearn.covariance import EllipticEnvelope from sklearn.svm import OneClassSVM import matplotlib.

斯坦福機器學習：網易公開課系列筆記（五）——高斯判別分析、樸素貝葉斯

高斯判別分析(Gaussian discriminant analysis) 判別模型和生成模型前面我們介紹了Logistic迴歸，通過學習hΘ(x)來對資料的分類進行預測：給定一個特徵向量x→輸出分類y∈{0,1}。這類通過直接

機器學習筆記（五）：樸素貝葉斯分類器

一、概述 1.1 簡介樸素貝葉斯（Naive Bayesian）是基於貝葉斯定理和特徵條件獨立假設的分類方法，它通過特徵計算分類的概率，選取概率大的情況進行分類，因此它是基於概率論的一種機器學習分類方法。因為分類的目標是確定的，所以也是屬於監督學習。 Q1：什麼是基於概率論的方

機器學習筆記（五）續——樸素貝葉斯演算法的後驗概率最大化含義

　　上一節中講了樸素貝葉斯演算法將例項分到後驗概率最大的類。這等價於期望風險最小化。假設使用0-1損失函式： L(Y,f(X))={1,0,Y≠f(X)Y=f(X) 上式中的f(x)是分類決策函式，這時，期望風險函式是： Rexp(f)=E[L(Y

機器學習實戰（五）支援向量機SVM（Support Vector Machine）

目錄 0. 前言 1. 尋找最大間隔 2. 拉格朗日乘子法和KKT條件 3. 鬆弛變數 4. 帶鬆弛變數的拉格朗日乘子法和KKT條件 5. 序列最小優化SMO（Sequential Minimal Optimiz

機器學習實踐（五）—sklearn之特徵降維

一、特徵降維概述為什麼要對特徵進行降維處理如果特徵本身存在問題或者特徵之間相關性較強，對於演算法學習預測會影響較大什麼是降維降維是指在某些限定條件下，降低隨機變數(特徵)個數，得到一組“不

機器學習筆記（五）過擬合問題及正則化

一、過擬合問題 1. 引入線性迴歸當中：假設我們拿出房屋面積與房價的資料集，隨著面積的增大，房價曲線趨於平緩。第一個模型不能很好地擬合，具有高偏差（欠擬合）。我們加入二次項後曲線可以較好的擬合，用第三個模型去擬合時，它通過了所有的資料點，但它是一條扭曲的線條，不停上下波動，我們並

NG機器學習總結-（五）正則化 Regularization

一、過擬合問題在解釋什麼是過擬合問題之前，首先還是以房價預測為例。假設這裡我們用三種不同的模型去擬合數據集，如下圖三種情況：從第一張圖看，我們發現我們是用一條直線去擬合數據，但是這樣的擬合效果並不好。從資料中，很明顯隨著房子面積的增大，房價的變化趨於穩定或者說越往

吳恩達機器學習作業（五）：支援向量機

目錄 1）資料預處理 2）Scikit-learn支援向量機 3）決策邊界比較 4）非線性SVM 5）最優超引數 6）垃圾郵件過濾器在本練習中，我們將使用支援向量機（SVM）來構建垃圾郵件分類器。我們將從一些簡單的2D資料集開始使用SVM來檢視它們的工作原理。

機器學習筆記（五）：支援向量機（SVM）

支援向量機是目前機器學習的眾多演算法中使用得最為廣泛的演算法之一，本文主要介紹支援向量機的概念與原理。目錄什麼是支援向量機硬間隔線性支援向量機軟間隔線性支援向量機非線性支援向量機一、什麼是支援向量機 &nbs

機器學習練習（一）-使用jupyter notebook

　　一個簡單的分類機器學習練習，基於sklearn。sklearn是Python中的一個機器學習模組。它其中有資料。非常方便我們用它來訓練機器學習的模型，和驗證我們的想法。（官方網站：https://scikit-learn.org/stable/）使用jupyter notebook呢，能更清晰地幫我們

機器學習練習（二）-機器學習的四大應用領域

一·資料探勘　　資料探勘主要是應用於大資料領域，利用機器學習的模型來挖掘資料中的潛在價值。發現數據之間的關係。比如根據房價的變化預測房價，根據天氣資訊預測天氣等。會應用經典的迴歸類問題。　　傳統的監督學習，或者非監督學習，或者與深度學習相結合的方式。二·計算機視覺　　讓機器像人一樣看世界，看到

機器學習筆記（五）—— 邏輯迴歸

邏輯迴歸演算法是二分類問題中最常用的幾種分類演算法之一，通過變形，也能夠在多分類問題中發揮餘熱。今天我將從向大家揭開這個簡單演算法的神祕面紗！一、Sigmoid函式在迴歸問題中，我們曾經提到，對於資料集

周志華-機器學習-筆記（五）- 強化學習

#### 任務與獎賞 #### 　　“強化學習”(reinforcement learning)可以講述為在任務過程中不斷摸索，然後總結出較好的完成任務策略。　　強化學習任務通常用馬爾可夫決策過程(Markov Decision Process，簡稱M

機器學習練習（一）——簡單線性迴歸

這篇文章是一系列 Andrew Ng 在 Coursera 上的機器學習課程的練習的一部分。這篇文章的原始程式碼，練習文字，資料檔案可從這裡獲得。這些年來，我專業開發的一個關鍵時刻是當我發現 Courser

機器學習方法（五）：邏輯迴歸Logistic Regression，Softmax Regression

歡迎轉載，轉載請註明：本文出自Bin的專欄blog.csdn.net/xbinworld。技術交流QQ群：433250724，歡迎對演算法、技術、應用感興趣的同學加入。前面介紹過線性迴歸的基本知識，線性迴歸因為它的簡單，易用，且可以求出閉合解，被廣泛地

機器學習練習（六）—— 支援向量機

這篇文章是一系列 Andrew Ng 在 Coursera 上的機器學習課程的練習的一部分。這篇文章的原始程式碼，練習文字，資料檔案可從這裡獲得。我們現在已經到了課程內容和本系列部落格文章的最後階段。本

機器學習筆記（一）邏輯斯蒂迴歸LR

本文是在學習完李航老師的《統計學習方法》後，在網上又學習了幾篇關於LR的部落格，算是對LR各個基礎方面的一個回顧和總結。一簡述邏輯斯蒂迴歸是一種對數線性模型。經典的邏輯斯蒂迴歸模型（LR

白話機器學習演算法（五）自組織對映SOM

聚類演算法可以簡化為一個找聚類中心的問題，比如k-means，而對於輸入向量空間，找他的聚類中心，可以用統計學的方法，比如GMM，也可以用向量量化的方法。自組織對映，可以理解為一種向量量化網路，相當於我們的選人大代表，一類相近的人可以選一個代表，SOM就是這樣的思想，有了

機器學習練習（七）—— K-均值聚類與主成分分析

這篇文章是一系列 Andrew Ng 在 Coursera 上的機器學習課程的練習的一部分。這篇文章的原始程式碼，練習文字，資料檔案可從這裡獲得。現在我們到了本系列最後兩篇文章了！在本部分，我們將會討論

機器學習練習（五）——高斯異常點檢測

相關推薦