sk-learn學習筆記三

阿新 • • 發佈：2019-01-19

邏輯迴歸處理二元分類

普通的線性迴歸假設響應變數呈正態分佈，也稱為高斯分佈（Gaussian distribution ）或鐘形曲線（bell curve）。正態分佈資料是對稱的，且均值，中位數和眾數（mode）是一樣的。

擲一個硬幣獲取正反兩面的概率分佈是伯努力分佈（Bernoulli distribution），又稱兩點分佈或者0-1分佈。表示一個事件發生的概率是p，不發生的概率是1-p，概率在{0,1}之間

在邏輯迴歸裡，響應變數描述了類似於擲一個硬幣結果為正面的概率。如果響應變數等於或超過了指
定的臨界值，預測結果就是正面，否則預測結果就是反面。響應變數是一個像線性迴歸中的解釋變數
構成的函式表示，稱為邏輯函式（logistic function）。

二元分類效果評估方法

二元分類的效果評估方法有很多，常見的包括第一章裡介紹的腫瘤預測使用的準確率（accuracy），
精確率（precision）和召回率（recall）三項指標，以及綜合評價指標（F1 measure）， ROC AUC
值（Receiver Operating Characteristic ROC，Area Under Curve，AUC）

在我們的垃圾簡訊分類裡，真陽性是指分類器將一個垃圾簡訊分辨為spam類。真陰性是指分類器將
一個正常簡訊分辨為ham類。假陽性是指分類器將一個正常簡訊分辨為spam類。假陰性是指分類器
將一個垃圾簡訊分辨為ham類。混淆矩陣（Confusion matrix），也稱列聯表分析（Contingency
table）可以用來描述真假與陰陽的關係。矩陣的行表示實際型別，列表示預測型別。

LogisticRegression.score()用來計算模型預測的準確率

import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model.logistic import LogisticRegression
from sklearn.cross_validation import train_test_split, cross_val_score
df = pd.read_csv('mlslpic/sms.csv')
X_train_raw, X_test_raw, y_train, y_test = train_test_split(df['message']
, df['label'])
vectorizer = TfidfVectorizer()
X_train = vectorizer.fit_transform(X_train_raw)
X_test = vectorizer.transform(X_test_raw)
classifier = LogisticRegression()
classifier.fit(X_train, y_train)
scores = cross_val_score(classifier, X_train, y_train, cv=5)
print('準確率：',np.mean(scores), scores)

輸出結果如下：

準確率： 0.958373205742 [ 0.96291866 0.95334928 0.95813397 0.96172249 0.95574163]

精確率：

召回率：

scikit-learn結合真實型別資料，提供了一個函式來計算一組預測值的精確率和召回率。

程式碼如下：

import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model.logistic import LogisticRegression
from sklearn.cross_validation import train_test_split, cross_val_score
df = pd.read_csv('mlslpic/sms.csv')
X_train_raw, X_test_raw, y_train, y_test = train_test_split(df['message']
, df['label'])
vectorizer = TfidfVectorizer()
X_train = vectorizer.fit_transform(X_train_raw)
X_test = vectorizer.transform(X_test_raw)
classifier = LogisticRegression()
classifier.fit(X_train, y_train)
precisions = cross_val_score(classifier, X_train, y_train, cv=5, scoring=
'precision')
print('精確率：', np.mean(precisions), precisions)
recalls = cross_val_score(classifier, X_train, y_train, cv=5, scoring='re
call')
print('召回率：', np.mean(recalls), recalls)

輸出結果：

精確率： 0.99217372134 [ 0.9875 0.98571429 1. 1. 0.98765432]
召回率： 0.672121212121 [ 0.71171171 0.62162162 0.66363636 0.63636364 0.72727273]

綜合評價指標（F1 measure）是精確率和召回率的調和均值（harmonic mean），或加權平均值，也稱為F-measure或fF-score。

即：

scikit-learn也提供了計算綜合評價指標的函式。

程式碼如下：

f1s = cross_val_score(classifier, X_train, y_train, cv=5, scoring='f1')
print('綜合評價指標：', np.mean(f1s), f1s)

輸出結果如下：

綜合評價指標： 0.8020666384483939 [0.76923077 0.81481481 0.86010363 0.76404494 0.80213904]

ROC AUC

ROC曲線（Receiver Operating Characteristic，ROC curve）可以用來視覺化分類器的效果。和準確
率不同，ROC曲線對分類比例不平衡的資料集不敏感，ROC曲線顯示的是對超過限定閾值的所有預
測結果的分類器效果。ROC曲線畫的是分類器的召回率與誤警率（fall-out）的曲線。誤警率也稱假
陽性率，是所有陰性樣本中分類器識別為陽性的樣本所佔比例：

AUC是ROC曲線下方的面積，它把ROC曲線變成一個值，表示分類器隨機預測的效果。scikit-learn
提供了計算ROC和AUC指標的函式

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model.logistic import LogisticRegression
from sklearn.cross_validation import train_test_split, cross_val_score
from sklearn.metrics import roc_curve, auc
df = pd.read_csv('D:\dateset\SMSSpamCollection', delimiter='\t', header=None)
X_train_raw, X_test_raw, y_train, y_test = train_test_split(df[1], df[0])
lb = LabelBinarizer()#標籤二值化
y_test = np.array([number[0] for number in lb.fit_transform(y_test)])
vectorizer = TfidfVectorizer()
X_train = vectorizer.fit_transform(X_train_raw)
X_test = vectorizer.transform(X_test_raw)
classifier = LogisticRegression()
classifier.fit(X_train, y_train)
predictions = classifier.predict_proba(X_test)
false_positive_rate, recall, thresholds = roc_curve(y_test, predictions[:, 1])
roc_auc = auc(false_positive_rate, recall)
plt.title('Receiver Operating Characteristic')
plt.plot(false_positive_rate, recall, 'b', label='AUC = %0.2f' % roc_auc)
plt.legend(loc='lower right')
plt.plot([0, 1], [0, 1], 'r--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.0])
plt.ylabel('Recall')
plt.xlabel('Fall-out')
plt.show()

輸出結果如下：

sk-learn學習筆記三

邏輯迴歸處理二元分類

二元分類效果評估方法

ROC AUC

sk-learn學習筆記三

Linux學習筆記(三)：系統執行級與執行級的切換

【Unity 3D】學習筆記三十：遊戲元素——遊戲地形

MYSQL學習筆記三：日期和時間函數

Hadoop權威指南學習筆記三

NLTK學習筆記(三):NLTK的一些工具

Tomcat學習筆記(三)

mybatis學習筆記(三）-- 優化數據庫連接配置

Odoo10學習筆記三：模型（結構化的應用數據）、視圖（用戶界面設計）

tensorflow學習筆記(三)：實現自編碼器

CSS學習筆記三：自定義單選框，復選框，開關

git 學習筆記三（windows環境）

遊戲開發學習筆記三

學習筆記(三）

Android學習筆記三：用Intent串聯activity

redis 學習筆記三

Java學習筆記三---unable to launch

vue學習筆記(三)：vue-cli腳手架搭建

學習筆記三

NumPy學習筆記三股票價格

sk-learn學習筆記三

邏輯迴歸處理二元分類

二元分類效果評估方法

ROC AUC

相關推薦