機器學習實踐（十五）—sklearn之分類演算法-邏輯迴歸、精確率、召回率、ROC、AUC

阿新 • • 發佈：2018-12-03

邏輯迴歸雖然名字中帶有迴歸兩字，但它實際是一個分類演算法。

一、邏輯迴歸的應用場景

廣告點選率
是否為垃圾郵件
是否患病
金融詐騙
虛假賬號

看到上面的例子，我們可以發現其中的特點，那就是都屬於兩個類別之間的判斷。

邏輯迴歸就是解決二分類問題的利器

二、邏輯迴歸的原理

輸入

邏輯迴歸的輸入其實就是線性迴歸

即：
$h_{θ}$

( x ) = θ T x

h_\theta(x)=\theta^Tx $h_{θ} (x) = θ^{T} x$
啟用函式(sigmoid)

邏輯迴歸的本質就是把輸入到線性迴歸產生的結果再輸入到啟用函式中然後輸出。

即：
$g (h$

θ ( x ) ) = g ( θ T x ) = 1 1 + e − θ T x g(h_\theta(x)) = g(\theta^Tx) = \frac{1}{1+e^{-\theta^Tx}} $g (h_{θ} (x)) = g (θ^{T} x) = \frac{1}{1 + e ^{- θ^{T} x}}$
輸出的結果為：[0,1]區間中的一個概率值，預設的閾值為 0.5。

如：假設有兩個類別A，B，並且我們認為閾值為0.5，輸出結果超過閾值則預測為 A 類。那麼現在有一個樣本的輸入到邏輯迴歸輸出結果 0.6，這個概率值超過 0.5，意味著我們訓練或者預測的結果就是A類別。那麼反之，如果得出結果為 0.3 那麼，訓練或者預測結果就為B類別。

三、損失以及優化

那麼如何去衡量邏輯迴歸的預測結果與真實結果的差異呢？

損失

邏輯迴歸的損失，稱之為對數似然損失，公式如下：
$Cost(h_\theta(x),y) = -ylog(h_\theta(x)) - (1-y)log(1-h_\theta(x))$
上式為針對單條資料的損失函式，

那麼，我們能夠得出總的損失函式，公式如下：
$\sum_{i=1}^{m} y^{(i)}log(h_\theta(x^{(i)})) + (1-y^{(i)})log(1-h_\theta(x^{(i)})$
優化

我們同樣可以使用梯度下降優化演算法，去減少損失函式的值。

這樣去更新邏輯迴歸前面對應演算法的權重引數，提升原本屬於1類別的概率，降低原本是0類別的概率。

四、邏輯迴歸API

sklearn.linear_model.LogisticRegression(solver=‘liblinear’, penalty=‘l2’, C = 1.0)
- solver
  - 優化求解方式（預設開源的liblinear庫實現，內部使用了座標軸下降法來迭代優化損失函式）
  - 預設使用的是 sag，即根據資料集自動選擇，隨機平均梯度下降
- penalty
  - 正則化的種類
  - 預設為 L2
- C
  - 正則化力度
使用 SGDClassifier 實現邏輯迴歸 API，SGDClassifier(loss=“log”, penalty=" ")
- SGDClassifier實現了一個普通的隨機梯度下降學習，也可以通過設定average=True，實現隨機平均梯度下降。
- loss，設定 log ，即邏輯迴歸中的對數損失函式

五、案例：癌症分類預測-良／惡性乳腺癌腫瘤預測

資料介紹

原始資料的下載地址：https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/

下載資料：breast-cancer-wisconsin.data
資料描述
- 699條樣本，共11列資料，第一列用語檢索的id，後9列分別是與腫瘤
相關的醫學特徵，最後一列表示腫瘤型別的數值。
- 包含16個缺失值，用 ”?” 標出。
步驟分析
- 缺失值處理
- 標準化處理
- 邏輯迴歸預測

完整程式碼

import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 獲取資料並新增欄位名
column_name = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape',
                   'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin',
                   'Normal Nucleoli', 'Mitoses', 'Class']
cancer=pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",names=column_name)
cancer.head()

# 缺失值處理
cancer=cancer.replace(to_replace="?",value=np.nan)
cancer=cancer.dropna()

# 資料集劃分
# 1> 提取特徵資料與目標資料
x=cancer.iloc[:,1:-2]
y=cancer.iloc[:,-1]
# 2> 劃分資料集
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3)

# 標準化處理
transfer=StandardScaler()
x_train=transfer.fit_transform(x_train)
x_test=transfer.transform(x_test)

# 模型訓練
# 建立一個邏輯迴歸估計器
estimator=LogisticRegression()
# 訓練模型，進行機器學習
estimator.fit(x_train,y_train)
# 得到模型，列印模型迴歸係數，即權重值
print("logist迴歸係數為:\n",estimator.coef_)

# 模型評估
# 方法1：真實值與預測值比對
y_predict=estimator.predict(x_test)
print("預測值為:\n",y_predict)
print("真實值與預測值比對:\n",y_predict==y_test)
# 方法2：計算準確率
print("直接計算準確率為:\n",estimator.score(x_test,y_test))

六、二分類 - 模型評估 - 精確率、召回率與 $F_1-score$

混淆矩陣

在分類任務下，預測結果與正確標記之間存在四種不同的組合，構成混淆矩陣(適用於多分類)

	預測為正例	預測為假例
真實為正例	真正例(TP)	偽反例(FN)
真實為假例	偽正例(FP)	真反例(TN)

精確率

$\frac{真正例}{預測為正例}$
召回率 - (查得全，對正樣本的區分能力)

$\frac{真正例}{真實為正例}$
$F_1 - score$ - (反映了模型的穩健型)

$F_1 = \frac{2TP}{2TP+FP+FN}$
分類評估報告 - API

sklearn.metrics.classification_report(y_true, y_pred, labels=[], target_names=None )
- y_true
  - 真實目標值
- y_pred
  - 估計器預測值
- labels
  - 指定類別對應的數字
- target_names
  - 目標類別名稱
- return
  - 每個類別精確率、召回率、 $F_1$ 係數以及該類佔樣本數
如：classification_report(y_test, lr.predict(x_test), labels=[2, 4], target_names=['良性', '惡性'])

七、二分類 - 模型評估 - ROC曲線與AUC指標

如何衡量樣本不均衡下的評估？

假設這樣一個情況，如果99個樣本癌症，1個樣本非癌症，不管怎樣我全都預測正例(預設癌症為正例),準確率就為99%但是這樣效果並不好，這就是樣本不均衡下的評估問題。

TPR

$TPR = \frac{TP}{TP + FN}$

真實為真時預測為真佔真實為真的比例
FPR

$FPR = \frac{FP}{FP + TN}$

真實為假時預測為真佔真實為假的比例
ROC曲線

ROC 曲線的橫軸就是FPR，縱軸就是TPR
AUC指標
- AUC 的概率意義是隨機取一對正負樣本，正樣本得分大於負樣本的概率
- AUC 的最小值為0.5，最大值為1，取值越高越好
- AUC=1，完美分類器，採用這個預測模型時，不管設定什麼閾值都能得出完美預測。絕大多數預測的場合，不存在完美分類器。
- 0.5<AUC<1，優於隨機猜測。這個分類器（模型）妥善設定閾值的話，能有預測價值。
AUC - API

from sklearn.metrics import roc_auc_score
- sklearn.metrics.roc_auc_score(y_true, y_score)
  - 計算ROC曲線面積，即AUC值
  - y_true
    - 每個樣本的真實類別，必須為0(反例),1(正例)標記
  - y_score
    - 預測得分，可以是正類的估計概率、置信值或者分類器方法的返回值
  - return
    - AUC值
關於AUC
- AUC只能用來評價二分類
- AUC非常適合評價樣本不平衡中的分類器效能

八、案例 - 精確率、召回率、AUC值

# 接上面的腫瘤預測程式碼

#列印精確率、召回率、F1 係數以及該類佔樣本數
print("精確率與召回率為:\n",classification_report(y_test,y_predict,labels=[2,4],target_names=["良性","惡性"]))

###模型評估
#ROC曲線與AUC值
# 把輸出的 2 4 轉換為 0 或 1
y_test=np.where(y_test>2,1,0)  # 大於2就變為1，否則變為0
print("AUC值:\n",roc_auc_score(y_test,y_predict))

機器學習實踐（十五）—sklearn之分類演算法-邏輯迴歸、精確率、召回率、ROC、AUC

邏輯迴歸雖然名字中帶有迴歸兩字，但它實際是一個分類演算法。一、邏輯迴歸的應用場景廣告點選率是否為垃圾郵件是否患病金融詐騙虛假賬號看到上面的例子，我們可以發現其中的特點，那就是都屬於兩個類別之間的判斷。邏輯迴歸就是

機器學習實踐（十七）—sklearn之無監督學習-K-means演算法

一、無監督學習概述什麼是無監督學習之所以稱為無監督，是因為模型學習是從無標籤的資料開始學習的。無監督學習包含演算法聚類 K-means(K均值聚類) 降維

機器學習實踐（十六）—sklearn之模型儲存和載入

一、sklearn - 模型的儲存和載入 - API from sklearn.externals import joblib 儲存 joblib.dump(rf, ‘test.pkl’) 載入 estimator

機器學習實踐（十四）—sklearn之嶺迴歸（線性迴歸的改進）

帶有 L2 正則化的線性迴歸就是嶺迴歸。嶺迴歸，其實也是一種線性迴歸。只不過在演算法建立迴歸方程時候，加上正則化的限制，從而達到解決過擬合的效果。加上正則化，也就是使權重滿足劃分正確結果的同時儘量的小一、嶺迴歸 - API 嶺迴歸 - API

機器學習筆記（十五）：TensorFlow實戰七（經典卷積神經網路：VGG）

1 - 引言之前我們介紹了LeNet-5和AlexNet，在AlexNet發明之後，卷積神經網路的層數開始越來越複雜，VGG-16就是一個相對前面2個經典卷積神經網路模型層數明顯更多了。 VGGNet是牛津大學計算機視覺組（Visual Geometry Group）和Google

機器學習筆記（十五）：推薦系統

目錄 1）Problem formulation 2）Content-based recommendations 3）Collaborative filtering 4）Collaborative filtering algorithm 5）Vectorization: Lo

吳恩達機器學習筆記（十五）

原創部落格，轉載請註明出處！ 1、目標I ：資料壓縮開始談論第二種型別的無監督學習問題，稱為降維。有幾個不同的的原因使你可能想要做降維。一是資料壓縮，後面我們會看了一些視訊後，資料壓縮不僅允許我們壓縮資料，因而使用較少的計算機記憶體或磁碟空間，它還能讓我們加快我們的學習演算法。假設我

機器學習基礎（十五）—— blending

base algorithm vs meta-algorithm（建立在其他演算法基礎之上的演算法）：這是隻有整合學習才有的一對概念； uniform blending：（1）blending：

OpenCV2學習筆記（十五）：利用Cmake高速查找OpenCV函數源代碼

one 生成 img log 分享 lan 學習筆記全部 modules 在使用OpenCV時，在對一個函數的調用不是非常了解的情況下，通常希望查到該函數的官方聲明。而假設想進一步研究OpenCV的函數，則必須深入到源碼。在VS中我們能夠選中想要查

從零開始學習html（十五）css樣式設置小技巧——下

right ron pos 瀏覽器 spl pan esc 插入 ccf 六、垂直居中-父元素高度確定的單行文本 1 <!DOCTYPE HTML> 2 <html> 3 <head> 4 <meta charset="

Python學習筆記（十五）用Python獲取本地數據

cname lin txt .py ora 系統筆記緩沖 log f1 = open(r‘E:\Python\Data\data1.txt‘) #讀取data1.txt文件，使用系統默認緩沖區大小, 為了讀取快點，使用緩存吧！

Python學習筆記（十五）

check target 哈哈方法多個 multi 定義輸出 poll 一、進程與線程　　一個操作系統可以有多個進程　　一個進程可以有多個線程，且必須有一個線程二、多進程　　from multiprocessing import Process　　import

Java學習筆記（十五）：import關鍵字

http 技術分享 import logs java學習筆記 .cn 關鍵字 blog ava Java學習筆記（十五）：import關鍵字

Java學習筆記（十五）：this關鍵字

bsp java image nbsp his this mage 學習筆記筆記 Java學習筆記（十五）：this關鍵字

python學習筆記（十五）之集合

head erro sdi pytho not in 註意 inter ren mod 集合：對應數學中的集合類型。集合中的元素是唯一，且無序的。創建集合　　方法一：使用{}，註意python會自動刪除重復元素 >>> number = {1,2,3

day7-Python學習筆記（十五）網絡編程

http on() 學習 int jni 二進制格式 size users -s import urllib.requestimport json,requests#發送get請求# url = ‘http://api.nnzhp.cn/api/user/stu_info?

ShaderLab學習小結（十五）法線貼圖的簡單Shader

otl mvp truct 沒有模型視覺有一個 rdb 值範圍目標：賦予材質法線貼圖，並能響應光照的變化，體現出凹凸感。場景中只有一個主平行光找了一張法線貼圖（網上蕩的）在unity裏別忘了把這張圖設為normalmap先看一下，如果只是作為普通貼圖，賦在Diffu

Linux學習筆記（十五）磁盤格式化、磁盤掛載、手動增加swap空間

swap 根目錄 cad inode 筆記 pre images 實例 exe 一、磁盤格式化 cat /etc/filesystems 查看系統支持的文件格式 mount 查看系統的文件格式可以看到根目錄和、boot都是xfs 格式centos6使用的是ext4cento

Linux學習總結（十五）文件查找 which whereis locate find

find which whereis locate which命令用於查找並顯示給定命令的絕對路徑，環境變量PATH中保存了查找命令時需要遍歷的目錄。which指令會在環境變量$PATH設置的目錄裏查找符合條件的文件。也就是說，使用which命令，就可以看到某個系統命令是否存在，以及執行的到

Java學習總結（十五）——MySQL數據庫（上）—增，刪，改與部分查詢語句

MySQL數據庫增刪改查一．MySQL簡介及在DOS下操作MySQL1.MySQL是一種中型關系型數據庫管理系統（DBMS,Database Management System）。註意：關系型數據庫是按照表的方式存儲數據的2.DOS環境下操作MySQL（1）進入MySQL環境：（

機器學習實踐（十五）—sklearn之分類演算法-邏輯迴歸、精確率、召回率、ROC、AUC

一、邏輯迴歸的應用場景

二、邏輯迴歸的原理

輸入

啟用函式(sigmoid)

三、損失以及優化

損失

優化

四、邏輯迴歸API

五、案例：癌症分類預測-良／惡性乳腺癌腫瘤預測

資料介紹

資料描述

步驟分析

完整程式碼

六、二分類 - 模型評估 - 精確率、召回率 與 F 1 − s c o r e F_1-score F1​−score

混淆矩陣

精確率

召回率 - (查得全，對正樣本的區分能力)

F 1 − s c o r e F_1 - score F1​−score - (反映了模型的穩健型)

分類評估報告 - API

七、二分類 - 模型評估 - ROC曲線與AUC指標

如何衡量樣本不均衡下的評估？

TPR

FPR

ROC曲線

AUC指標

AUC - API

關於AUC

八、案例 - 精確率、召回率、AUC值

相關推薦

六、二分類 - 模型評估 - 精確率、召回率與 $F_1-score$

$F_1 - score$ - (反映了模型的穩健型)