利用scikitlearn畫ROC曲線

阿新 • • 發佈：2019-02-12

一個完整的資料探勘模型，最後都要進行模型評估，對於二分類來說，AUC，ROC這兩個指標用到最多，所以利用sklearn裡面相應的函式進行模組搭建。

具體實現的程式碼可以參照下面博友的程式碼，評估svm的分類指標。注意裡面的一些細節需要注意，一個是呼叫roc_curve 方法時，指明目標標籤，否則會報錯。具體是這個引數的設定pos_label ，以前在unionbigdata實習時學到的。

重點是以下的程式碼需要根據實際改寫：

    mean_tpr = 0.0  
    mean_fpr = np.linspace(0, 1, 100)  
    all_tpr = []
    
    y_target = np.r_[train_y,test_y]
    cv = StratifiedKFold(y_target, n_folds=6)

        #畫ROC曲線和計算AUC
        fpr, tpr, thresholds = roc_curve(test_y, predict,pos_label = 2)##指定正例標籤，pos_label = ###########在數之聯的時候學到的，要制定正例
        
        mean_tpr += interp(mean_fpr, fpr, tpr)          #對mean_tpr在mean_fpr處進行插值，通過scipy包呼叫interp()函式  
        mean_tpr[0] = 0.0                               #初始處為0  
        roc_auc = auc(fpr, tpr)  
        #畫圖，只需要plt.plot(fpr,tpr),變數roc_auc只是記錄auc的值，通過auc()函式能計算出來  
        plt.plot(fpr, tpr, lw=1, label='ROC  %s (area = %0.3f)' % (classifier, roc_auc))

然後是博友的參考程式碼：

# -*- coding: utf-8 -*-
"""
Created on Sun Apr 19 08:57:13 2015
@author: shifeng
"""
print(__doc__)
import numpy as np
from scipy import interp
import matplotlib.pyplot as plt
from sklearn import svm, datasets
from sklearn.metrics import roc_curve, auc
from sklearn.cross_validation

import StratifiedKFold
###############################################################################
# Data IO and generation,匯入iris資料，做資料準備
# import some data to play with
iris = datasets.load_iris()
X = iris.data
y = iris.target
X, y = X[y != 2], y[y != 2]#去掉了label為2，label只能二分，才可以。
n_samples, n_features = X.shape
# Add noisy features
random_state = np.random.RandomState(0)
X = np.c_[X, random_state.randn(n_samples, 200 * n_features)]
###############################################################################
# Classification and ROC analysis
#分類，做ROC分析
# Run classifier with cross-validation and plot ROC curves
#使用6折交叉驗證，並且畫ROC曲線
cv = StratifiedKFold(y, n_folds=6)
classifier = svm.SVC(kernel='linear', probability=True,
random_state=random_state)#注意這裡，probability=True,需要，不然預測的時候會出現異常。另外rbf核效果更好些。
mean_tpr = 0.0
mean_fpr = np.linspace(0, 1, 100)
all_tpr = []
for i, (train, test) in enumerate(cv):
#通過訓練資料，使用svm線性核建立模型，並對測試集進行測試，求出預測得分
probas_ = classifier.fit(X[train], y[train]).predict_proba(X[test])
# print set(y[train]) #set([0,1]) 即label有兩個類別
# print len(X[train]),len(X[test]) #訓練集有84個，測試集有16個
# print "++",probas_ #predict_proba()函式輸出的是測試集在lael各類別上的置信度，
# #在哪個類別上的置信度高，則分為哪類
# Compute ROC curve and area the curve
#通過roc_curve()函式，求出fpr和tpr，以及閾值
fpr, tpr, thresholds = roc_curve(y[test], probas_[:, 1])
mean_tpr += interp(mean_fpr, fpr, tpr) #對mean_tpr在mean_fpr處進行插值，通過scipy包呼叫interp()函式
mean_tpr[0] = 0.0#初始處為0
roc_auc = auc(fpr, tpr)
#畫圖，只需要plt.plot(fpr,tpr),變數roc_auc只是記錄auc的值，通過auc()函式能計算出來
plt.plot(fpr, tpr, lw=1, label='ROC fold %d (area = %0.2f)' % (i, roc_auc))
#畫對角線
plt.plot([0, 1], [0, 1], '--', color=(0.6, 0.6, 0.6), label='Luck')
mean_tpr /= len(cv) #在mean_fpr100個點，每個點處插值插值多次取平均
mean_tpr[-1] = 1.0#座標最後一個點為（1,1）
mean_auc = auc(mean_fpr, mean_tpr) #計算平均AUC值
#畫平均ROC曲線
#print mean_fpr,len(mean_fpr)
#print mean_tpr
plt.plot(mean_fpr, mean_tpr, 'k--',
label='Mean ROC (area = %0.2f)' % mean_auc, lw=2)
plt.xlim([-0.05, 1.05])
plt.ylim([-0.05, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.show()

利用scikitlearn畫ROC曲線

一個完整的資料探勘模型，最後都要進行模型評估，對於二分類來說，AUC，ROC這兩個指標用到最多，所以利用sklearn裡面相應的函式進行模組搭建。具體實現的程式碼可以參照下面博友的程式碼，評估svm的分類指標。注意裡面的一些細節需要注意，一個是呼叫roc_curve

利用sklearn畫ROC曲線python程式碼個人理解

程式碼註釋 >>> import numpy as np >>> from sklearn import metrics 匯入metrics模組 >>> y = np.array([1, 1,

python 畫 ROC 曲線

python 畫 ROC 曲線的實現程式碼 import numpy as np import matplotlib.pyplot as plt from sklearn.metrics import auc ###計算roc和auc import pandas a

用Python畫ROC曲線 matplotlib 顏色、標記、線條引數控制

在分類模型中，ROC曲線和AUC值經常作為衡量一個模型擬合程度的指標。最近在建模過程中需要作出模型的ROC曲線，參考了sklearn官網的教程和部落格。現在將自己的學習過程總結如下，希望對初次接觸的同學有所幫助。PS：網上的例子實在是晦澀難懂，在折騰了一下午之後

用R軟體包ROCR畫ROC曲線

ROC曲線可以簡單、直觀得觀察分析方法的臨床準確性，並可用肉眼作出判斷。ROC以真陽性率（靈敏度FPR）為縱座標，假陽性率（1-特異度TPR）為橫座標繪製的曲線，可準確反映某分析方法特異性和敏感性的關係，是試驗準確性的綜合代表。ROC曲線不固定分類界值，允許

ROC曲線是通過樣本點分類概率畫出的例如某一個sample預測為1概率為0.6 預測為0概率0.4這樣畫出來，此外如果曲線不是特別平滑的話,那麽很可能存在過擬合的情況

pro TE 直線算法 false .net ear 明顯 ever ROC和AUC介紹以及如何計算AUC from：http://alexkong.net/2013/06/introduction-to-auc-and-roc/ ROC（Receiver Operati

構建７種分類模型，評分並畫出ROC曲線

構建７種分類模型，評分並畫出ROC曲線匯入的包 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import Logi

Android利用canvas畫各種圖形(點、直線、弧、圓、橢圓、文字、矩形、多邊形、曲線、圓角矩形)

DrawView.java public class DrawView extends View { public DrawView(Context context) { super(context); } @Override protected void onDraw(Canvas c

Android 利用canvas畫各種圖形(點、直線、弧、圓、橢圓、文字、矩形、多邊形、曲線、圓角矩形)

1、首先說一下canvas類： Class Overview The Canvas class holds the “draw” calls. To draw something, you need 4 basic components: A Bitmap

利用python畫微分方程（組）的數值曲線

# This is a simple numerical example using matplotlib to simulate differential equatons, here we take y'= -sin(t), y(0)= 1. It's easy to

利用python畫折線圖

png pyplot ota Y軸 legend otto log gen tick # encoding=utf-8import matplotlib.pyplot as pltfrom pylab import *

xgene：之ROC曲線、ctDNA、small-RNA seq、甲基化seq、單細胞DNA, mRNA

會有模板 pat 活動 fff 1.5 科學家因子染色靈敏度高 == 假陰性率低，即漏檢率低，即有病人卻沒有發現出來的概率低。用於判斷：有一部分人患有一種疾病，某種檢驗方法可以在人群中檢出多少個病人來。特異性高 == 假陽性率低，即錯把健康判定為病人的概率低

WPF畫圖の利用Path畫扇形（僅圖形）

默認 dir 添加數據 class geo sent 內部繪圖表現一、畫弧 Path繼承自Sharp，以System.Windows.Shapes.Shape為基類，它是一個具有各種方法的控件。我們先看一段xaml代碼： <Path Stro

ROC曲線

理想 pan title 收益技術如果 cost edi 兩個 ROC曲線指受試者工作特征曲線 / 接收器操作特性曲線(receiver operating characteristic curve), 是反映敏感性和特異性連續變量的綜合指標,是用構圖法揭示敏感性和特異

css-利用邊框畫三角形

OS lsp css ble light htm lpad log x11 html中代碼 1 2 3 4 <div class=‘box-rihgt‘></div> <div class=‘box-top‘></

ROC 曲線，以及AUC計算方式

true 樣本數目 opera block specific har -m 情況排序 ROC曲線： roc曲線：接收者操作特征(receiveroperating characteristic),roc曲線上每個點反映著對同一信號刺激的感受性。 ROC曲線的橫軸：負正類

統計分析之ROC曲線與多指標聯合分析——附SPSS繪製ROC曲線指南

在進行某診斷方法的評估是，我們常常要用到ROC曲線。這篇博文將簡要介紹ROC曲線以及用SPSS及medcal繪製ROC曲線的方法。定義 ROC受試者工作特徵曲線（receive

統計分析之單因素分析、多因素分析（多指標聯合分析）與ROC曲線的繪製——附SPSS操作指南

Q1.什麼是單因素分析和多因素分析？單因素分析（monofactor analysis）是指在一個時間點上對某一變數的分析。目的在於描述事實。多因素分析亦稱“多因素指數體系

AUC（計算方法）--ROC曲線

轉載至 http://blog.csdn.net/pzy20062141/article/details/48711355 一、roc曲線 1、roc曲線：接收者操作特徵(receiveroperating characteristic),roc曲線

真假正負例、混淆矩陣、ROC曲線、召回率、準確率、F值、AP

[轉自：https://blog.csdn.net/yimingsilence/article/details/53769861] 一、假正例和假負例假正例（False Positive）：預測為1，實際為0的樣本假負例（False N

利用scikitlearn畫ROC曲線

相關推薦