機器學習之效能度量-實現混淆矩陣（confusion matrix）

阿新 • • 發佈：2021-02-02

"""
@author: JacksonKim
@filename: confusion_matrix.py
@start: 2021/02/01
@end:   2021/02/01
"""

import numpy as np
from sklearn import datasets
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier

'''
混淆矩陣是機器學習中總結分類模型預測結果的情形分析表，以矩陣形式將資料集中的記錄按照真實的類別與分類模型預測的類別判斷兩個標準進行彙總：
1. TR：真正例，將正類預測為正類
2. FP： 假正例，將反例預測為正例
3. TN： 真反例，將反例預測為反例
4. FN： 假反例，將正例預測為反例
5. P：查準率， P = TP / (TP + FP)
6. R: 查全率， R = TP / (TP + FN)
''' 



# 計算TP， 正例為1，反例為0
def TP(y_true, y_predict):
    assert len(y_true) == len(y_predict)  # assert斷言函式，當表示式為false時觸發異常
    return np.sum((y_true == 1) & (y_predict == 1))


# 計算FN
def FN(y_true, y_predict):
    assert len(y_true) == len(y_predict)
    return np.sum((y_true == 1) & (y_predict == 
 0))


# 計算FP
def FP(y_true, y_predict):
    assert len(y_true) == len(y_predict)
    return np.sum((y_true == 0) & (y_predict == 1))


# 計算TN
def TN(y_true, y_predict):
    assert len(y_true) == len(y_predict)
    return np.sum((y_true == 0) & (y_predict == 0))


# 生成混淆矩陣
def confusion_matrix(y_true, 
 y_predict):
    return np.array([
        [TN(y_true, y_predict), FP(y_true, y_predict)],
        [FN(y_true, y_predict), TP(y_true, y_predict)]
    ])


# 獲取資料集
def get_data():
    # 使用鸞尾花資料集和knn演算法測試
    iris = datasets.load_iris()

    X = iris.data[:, :2]  # 取鸞尾花資料集每個元素（list）的前兩個數
    Y = iris.target  # 獲取鸞尾花資料集的分類

    # 畫出原始資料的分類散點圖
    # plt.scatter(X[Y == 0, 0], X[Y == 0, 1], color='r')
    # plt.scatter(X[Y == 1, 0], X[Y == 1, 1], color='b')
    # plt.scatter(X[Y == 2, 0], X[Y == 2, 1], color='g')
    # plt.show()

    # 選取原始資料集的兩個分類做二分類任務
    iris_x = X[Y < 2]
    iris_y = Y[Y < 2]
    print(iris_x)
    print(iris_y)
    # 畫出這兩類資料的散點圖
    plt.scatter(iris_x[iris_y == 0, 0], iris_x[iris_y == 0, 1], color='r')
    plt.scatter(iris_x[iris_y == 1, 0], iris_x[iris_y == 1, 1], color='b')
    # plt.show()
    return iris_x, iris_y


# 使用留出法處理資料
def train_test_split(x, y):
    shuffle_indexs = np.random.permutation(len(x))
    test_radio = 0.3  # 設定測試集比例
    test_size = int(len(x) * test_radio)  # 求出測試集大小
    # 求出訓練/測試集
    test_indexs = shuffle_indexs[:test_size]
    train_indexs = shuffle_indexs[test_size:]
    train_x = x[train_indexs]
    train_y = y[train_indexs]
    test_x = x[test_indexs]
    test_y = y[test_indexs]
    return train_x, test_x, train_y, test_y


# 使用KNN演算法作為分類器
def KNN(x, y):
    knn_clf = KNeighborsClassifier()
    train_x, test_x, train_y, test_y = train_test_split(x, y)  # 劃分訓練/測試集
    knn_clf.fit(train_x, train_y)  # 進行訓練
    score = knn_clf.score(test_x, test_y)  # 實現我們的預測是100%
    print("score:", score)
    y_predict = knn_clf.predict(test_x)  # 進行預測
    matrix = confusion_matrix(test_y, y_predict)  # 生成混淆矩陣
    print(matrix)  # 列印矩陣


x_data, y_data = get_data()
KNN(x_data, y_data)

機器學習之效能度量-實現混淆矩陣（confusion matrix）

技術標籤：機器學習python演算法機器學習 """ @author: JacksonKim @filename: confusion_matrix.py

MATLAB實現多分類預測混淆矩陣（Confusion matrix）視覺化

對於多分類問題，如何對預測結果進行視覺化是對比分析的關鍵一步，在實際多分類問題，除了簡單展示模型預測精度外，如何分別不同類別之間的預測結果對於分析樣本相關性和屬性區別具有重要意義，在MATLAB中一

演算法學習第五日之用棧實現綜合計算器（中綴表示式）

目錄棧實現綜合計算器（中綴表示式）演算法思路:實現程式碼：棧實現綜合計算器（中綴表示式）

機器學習實戰2.1KNN分類器程式碼（帶註釋）

技術標籤：學習筆記機器學習python from numpy import * import operator# 運算子模組 def createDataSet():

JVM系列之效能調優參考手冊（企業級實踐篇）

1、前言介紹一般來說，JVM內部是經過很多的實踐和優化的，所以一般調休是先通過java提供的工具進行效能問題排查，找出影響效能的程式碼，然後迫不得已才可以考慮調整JVM引數，進行JVM引數調優。

機器學習—降維-特徵選擇6-1（過濾法）

使用過濾法對糖尿病資料集降維主要步驟流程： 1. 匯入包 2. 匯入資料集 3. 資料預處理

機器學習—降維-特徵選擇6-2（包裝法）

使用包裝法對糖尿病資料集降維（遞迴特徵消除法）主要步驟流程： 1. 匯入包

機器學習—降維-特徵選擇6-5（LDA方法）

使用LDA對糖尿病資料集降維主要步驟流程： 1. 匯入包 2. 匯入資料集 3. 資料預處理

如何使用華為機器學習服務和Kotlin實現語音合成

1. 引言你曾遇到過這種情況嗎？一本小說太長，要花很長時間閱讀，但如果有app能自動為你閱讀，就會省時很多。因此，將文字轉換成語音的工具應運而生。華為機器學習服務（HUAWEI ML Kit）具備語音合成（Text To

機器學習之線性迴歸

解析解（不帶懲罰項） E ( w ) = 1 2 ∑ i = 1 N ( y ( x i , w ) − t i ) 2 E ( w ) = 1 2 ( X w − T ) T ( X w − T ) = 1 2 ( w T X T − T T ) ( X w −

機器學習之決策樹和隨機森林

一、迴歸實踐程式碼知識點總結 sklearn常用庫函式總結： from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.linear_model import L

機器學習之簡單線性迴歸

目錄1.簡單線性迴歸2.線性迴歸分析流程3.線性迴歸例項在前言中我們可以看到，目標標記為連續型數值的是迴歸。而回歸又分為線性和非線性

機器學習之邏輯迴歸

Logistic 迴歸的本質是：假設資料服從這個分佈，然後使用極大似然估計做引數的估計。 Logistic 分佈是一種連續型的概率分佈，其分佈函式和密度函式分別為：這個函式比較符合實際，例如蝗蟲的增長速度，員工

機器學習之 KNN近鄰演算法（二）鳶尾花資料集訓練

一、鳶尾花資料集 from sklearn.datasets import load_iris，通過datas= load_iris()獲得鳶尾花資料集用於測試

機器學習之 KNN近鄰演算法（三）影象識別

一、影象基礎知識 1）影象（如rpg格式）由畫素點組成　　400*300意思是行400畫素點，列300畫素點

機器學習之調參

匯入資料： from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import train_test_split

機器學習之特徵選擇（Feature Selection）

引言　　特徵提取和特徵選擇作為機器學習的重點內容，可以將原始資料轉換為更能代表預測模型的潛在問題和特徵的過程，可以通過挑選最相關的特徵，提取特徵和創造特徵來實現。要想學習特徵選擇必然要了解什麼是特徵提

機器學習之決策樹

決策樹理論參考：https://www.cnblogs.com/fm-yangon/p/14072896.html 決策樹的sklearn實現決策樹模型（分類與迴歸引數方法屬性一致）：

機器學習之邏輯迴歸

logistic迴歸模型 logistic迴歸就是將線性迴歸模型的結果輸入一個Sigmoid函式，將回歸結果對映到0-1之間，表示類別“1”的概率。

機器學習之決策樹（Decision Tree）

1 引言　　決策樹（Decision Tree）是一種非引數的有監督學習方法，它能夠從一系列有特徵和標籤的資料中總結出決策規則，並用樹狀圖的結構來呈現這些規則，以解決分類和迴歸問題。決策樹中每個內部節點表示一個屬性

機器學習之效能度量-實現混淆矩陣（confusion matrix）

相關推薦