【機器學習】分類器效能指標

阿新 • • 發佈：2019-01-04

1. 錯誤率：

e = 錯誤分類個數/總樣本數

2. 正確率：

TP：分類正確正例

TN：分類正確負例

FP：分類錯誤正例

FN：分類錯誤負例

precision = 分類正確的正類/(預測結果中被分為正類的個數) = TP/(TP+FP)

3. 召回率：

recall = 分類正確的正類/(所有正類的個數) = TP/(TP+FN)

4. F1 score

$F1 = \frac{2PR}{P+R}$

5. ROC曲線

ROC（receiver operating characteristic）“受試者工作特徵”。ROC縱軸為“真正例率”(TPR)，橫軸是“假正例率”(FPR)，其中：

TPR = 分類正確正例/ 所有正例 = TP/(TP+FN)

FPR = 分類錯誤的正例/ 所有負例 = FP/(TN+FP)

生成過程：

① 將分類結果按照分成正例的概率從小到大排序，最左邊即最不可能是正例的例子；

② 從左往右依次將每個樣例設為閾值，閾值左邊（包含當前樣例）均判為正例，右邊均判為負例；

③ 然後計算對應的TPR和FPR，即為RUC的一個座標；（計算tipes：假設上一輪的座標為（x,y）若當前的閾值是正例則更新y = y + 1/正例個數，若當前值是反例則更新x= x + 1/反例個數）。

由上圖：

① 左上角表示效能最佳的分類器（所有樣例分類正確），右下角表示效能最差的分類器（所有樣例分類錯誤）。

②ROC曲線越靠左上角，分類器效能越好。

③圖中的虛直線表示“隨機猜測”的ROC線，也就是有50%的樣例被預測錯誤；

③ ROC所圍成的區域的面積稱為AUC，AUC越大分類效果越好。AUC > 0.5, 效果好於隨機猜測。AUC = 0.5，效果和隨機猜測一樣。AUC<0.5, 效果不如隨機猜測。AUC代表了分類器的平均效能。

圖中2和3的ROC曲線覆蓋了1的，說明2和3的分類效能好；2和3的ROC曲線大部分重合，為了判斷哪個更好，可以使用AUC面積來比較。

【機器學習】分類器效能指標

1. 錯誤率： e = 錯誤分類個數/總樣本數 2. 正確率： TP：分類正確正例 TN：分類正確負例 FP：分類錯誤正例 FN：分類錯誤負例 precision = 分類正確的正類/(預測結果中被分為正類的個數) = TP/(TP+FP) 3. 召回

【機器學習】分類效能度量指標 : ROC曲線、AUC值、正確率、召回率、敏感度、特異度

在分類任務中，人們總是喜歡基於錯誤率來衡量分類器任務的成功程度。錯誤率指的是在所有測試樣例中錯分的樣例比例。實際上，這樣的度量錯誤掩蓋了樣例如何被分錯的事實。在機器學習中，有一個普遍適用的稱為混淆矩陣(confusion matrix)的工具，它可以幫助人們

【機器學習】模型的效能評價指標

混淆矩陣混淆矩陣：展示學習演算法效能的一種矩陣，一個簡單的方陣，展示一個分類器預測結果（真正，真負，假正，假負）的數量圖：使用SKlearn的confusion_matrix方法實現混淆矩陣： from sklearn.metrics import confu

【機器學習】分類決策樹與迴歸決策樹案例

一、回顧什麼是決策樹，資訊熵構建決策樹的過程 ID3、C4.5和CRAT演算法上面三篇，主要介紹了相關的理論知識，其中構建決策樹的過程可以很好地幫助我們理解決策樹的分裂屬性的選擇。本篇所有原始碼：Github 二

【機器學習】演算法模型效能中的偏差、方差概念

什麼時候模型的複雜程度該停止？模型越複雜，單次預測出的結果與真實結果的偏差（bias）就越小。但很容易引發過擬合。模型越簡單，預測不同資料，預測的準確性差別越小。預測不同資料，所得到的準確性構成序列，序列的方差（variance）也就越小。

【機器學習】分類決策樹基本介紹+程式碼實現

參考：https://blog.csdn.net/u012351768/article/details/73469813 1.基礎知識基於特徵對例項進行分類。優點：複雜度低，輸出結果易於理解，缺失中間值不敏感，可處理不相關特徵資料。缺點：過度匹配。適用資料型別：標稱和

【機器學習】機器學習分類器模型評價指標機器學習分類器模型評價指標

機器學習分類器模型評價指標分類器評價指標主要有： 1，Accuracy 2，Precision 3，Recall 4，F1 score 5，ROC 曲線

【深度學習-機器學習】分類度量指標 : 正確率、召回率、靈敏度、特異度，ROC曲線、AUC等

在分類任務中，人們總是喜歡基於錯誤率來衡量分類器任務的成功程度。錯誤率指的是在所有測試樣例中錯分的樣例比例。實際上，這樣的度量錯誤掩蓋了樣例如何被分錯的事實。在機器學習中，有一個普遍適用的稱為混淆矩陣(confusion matrix)的工具，它可以幫助人們更好地瞭解

【機器學習】傳統目標檢測演算法之級聯分類器Cascade

先附上參考文章吧。文章其實是“P. Viola, M. Jones. Rapid Object Detection using a Boosted Cascade of Simple Features[J].CVPR, 2001”的學習筆記，下面第二個連結是文獻的中英文版

【機器學習】樸素貝葉斯分類器

前言：在正式講述樸素貝葉斯分類器之前，先介紹清楚兩個基本概念：判別學習方法(Discriminative Learning Algorithm)和生成學習方法(Generative Learning Algorithm)。上篇博文我們使用Logist

【機器學習】一文讀懂分類演算法常用評價指標

評價指標是針對將相同的資料，輸入不同的演算法模型，或者輸入不同引數的同一種演算法模型，而給出這個演算法或者引數好壞的定量指標。在模型評估過程中，往往需要使用多種不同的指標進行評估，在諸多的評價指標中，大部分指標只能片面的反應模型的一部分效能，如果不能合理的運用評估指標，不僅不能發現模型本身的問題，而且會得出

【機器學習】在分類中如何處理訓練集中不平衡問題

原文地址：一隻鳥的天空，http://blog.csdn.net/heyongluoyao8/article/details/49408131 在分類中如何處理訓練集中不平衡問題在很多機器學習任務中，訓練集中可能會存在某個或某些類別下的樣本數遠大於另一些類別下的樣本數目。即類別不平衡，為了

【機器學習】資料探勘演算法——關聯規則（一），相關概念，評價指標

綜述：資料探勘是指以某種方式分析資料來源，從中發現一些潛在的有用的資訊，所以資料探勘又稱作知識發現，而關聯規則挖掘則是資料探勘中的一個很重要的課題，顧名思義，它是從資料背後發現事物之間可能存在的關聯或者聯絡。關聯規則的目的在於在一個數據集中找出項之間的關

【機器學習】決策樹（基於ID3,C4.5,CART分類迴歸樹演算法）—— python3 實現方案

內含3種演算法的核心部分. 沒有找到很好的測試資料. 但就理清演算法思路來說問題不大剪枝演算法目前只實現了CART迴歸樹的後剪枝. import numpy as np from collections import Counter from sklearn imp

【機器學習】神經網路（一）——多類分類問題

一、問題引入早在監督學習中我們已經使用Logistic迴歸很好地解決二類分類問題。但現實生活中，更多的是多類分類問題（比如識別10個手寫數字）。本文引入神經網路模型解決多類分類問題。二、神經網路模型介紹神經網路模型是一個非常強大的模型，起源於嘗試讓機

【機器學習】動手寫一個全連線神經網路（三）：分類

我們來用python寫一個沒有正則化的分類神經網路。傳統的分類方法有聚類，LR邏輯迴歸，傳統SVM，LSSVM等。其中LR和svm都是二分類器，可以將多個LR或者svm組合起來，做成多分類器。多分類神經網路使用softmax+cross entropy組

【機器學習】如何改進機器學習的效能？

當我們的模型出現了過擬合，或者欠擬合的情況，如何處理？驗證模型由於在訓練樣本中得到的訓練誤差，是不能夠用來作為實際的泛化誤差的，因此我們分割樣本為訓練集和測試集，在訓練集上訓練模型，在測試集上計算測試誤差。在模型選擇的過程中，我們通過比較不同模型的測試誤差，選出

【機器學習】使用樸素貝葉斯進行文件分類

樸素貝葉斯的一般過程： 1、收集資料：任何方法 2、準備資料：需要數值型或者布林型資料 3、分析資料：有大量特徵時，繪製特徵作用不大，此時使用直方圖效果更好 4、訓練演算法：計算不同的獨立特徵的條件概率 5、測試演算法：計算錯誤率 6、使用演算法：常見的樸素貝葉斯應用是

【機器學習】決策樹（下)CART演算法分類樹、迴歸樹

CART同樣由特徵選擇、樹的生成、剪枝組成。既可以用於迴歸，又可以用於分類。 CART是在給定輸入隨機變數X條件下輸出隨機變數Y的條件概率分佈的學習方法。 CART假設決策樹是二叉樹，內部節點特徵的取值為“是“和“否“，左分支是取值為“是“的分支，右分支是取值為“否“的分支。這樣的決策樹

【機器學習】CART分類決策樹+程式碼實現

1. 基礎知識 CART作為二叉決策樹，既可以分類，也可以迴歸。分類時：基尼指數最小化。迴歸時：平方誤差最小化。資料型別：標值型，連續型。連續型分類時採取“二分法”，取中間值進行左右子樹的劃分。 2. CART分類樹特徵A有N個取值，將每個取值作為分界點，將資料

【機器學習】分類器效能指標

相關推薦