1. 程式人生 > >機器學習中常用到的知識點總結

機器學習中常用到的知識點總結

寫在前面的話

都是什麼鬼,為什麼學校的洗手液和老闆用的沐浴乳是一個味道的,我現在在敲程式碼,整個手上都瀰漫著一股老闆的味道,深深的恐懼感油然而生

1.基本概念

監督學習(supervised learning)
分類問題 資料是有標籤的

無監督學習
聚類問題, 資料沒有標籤

監督學習一般使用兩種型別的目標變數:
標稱型
數值型

標稱型的目標變數的結果一般只在有限的資料集中取

數值型變數則可以從無限的數值集合當中取得, 數值型目標變數主要用於迴歸分析

2. Positive and Negative

在一個二分問題中,將例項分為正類(positive)或者負類(negative).對於一個二分問題,會出現下面四種情況.
如果一個例項是正類並且也被劃分為正類,即為真正類(True Positive)
如果例項是負類卻被預測為正類,稱之為假正類(False Positive)
如果例項是負類被預測成負類,稱之為真負類(True Negative)
如果例項是正類卻被預測成負類,稱之為假負類(False Negative)

注意:,它們的單位都是個數,單位是個數,個數個數!!!

TP:正確肯定的數目;
TN:正確拒絕的非匹配的數目

FN:漏報,沒有正確找到的匹配數目
FP: 誤報,給出的匹配是不正確的數目

在這些隨機實驗當中,實際上的正樣本數是:
TP+FN
實際上的負樣本數是:
TN+FP

在很多地方,我們習慣上把真正的陽性記做P,把檢測的結果為陽性記做P’:
P=TP+FN

這裡寫圖片描述

其一是真正類率(true positive rate ,TPR), 計算公式為TPR=TP/ (TP+ FN),刻畫的是分類器所識別出的 正例項佔所有正例項的比例。另外一個是負正類率(false positive rate, FPR),計算公式為FPR= FP / (FP + TN),計算的是分類器錯認為正類的負例項佔所有負例項的比例。還有一個真負類率(True Negative Rate,TNR),也稱為specificity,計算公式為TNR=TN/ (FP+ TN) = 1-FPR。

我們舉個個例子
在一次檢查中,我們測得有10個人是得病的,但是其中只有7個人是真正得病的,準確率就是在檢測為正類的樣本中,真正確定的正類樣本

Precision準確率 = TP/(TP+FP)

recall召回率 , 查全率,命中率(hit rate),在實際的病人中被找到的病人的概率

recall = TP/(TP+FN)

正確率ACC,指的是在所有的實驗樣本中,正確的部分佔整體的多少.

ACC= T/ALL
= (TP+TN)/(TP+TN+FN+FP)

錯檢率,虛警率(FPR)
實際上沒有得病的人錯誤的檢測了多少
FPR=FP/(FP+TN)