ALINK(三十六)：模型評估（一）二分類評估 (EvalBinaryClassBatchOp)

阿新 • • 發佈：2021-06-19

Java 類名：com.alibaba.alink.operator.batch.evaluation.EvalBinaryClassBatchOp

Python 類名：EvalBinaryClassBatchOp

功能介紹

二分類評估是對二分類演算法的預測結果進行效果評估。

支援Roc曲線，LiftChart曲線，K-S曲線，Recall-Precision曲線繪製。

流式的實驗支援累計統計和視窗統計，除卻上述四條曲線外，還給出Auc/Kappa/Accuracy/Logloss隨時間的變化曲線。

給出整體的評估指標包括：AUC、K-S、PRC, 不同閾值下的Precision、Recall、F-Measure、Sensitivity、Accuracy、Specificity和Kappa。

混淆矩陣

Roc曲線

橫座標：FPR

縱座標：TPR

AUC

Roc曲線下面的面積

K-S

橫座標：閾值

縱座標：TPR和FPR

KS

K-S曲線兩條縱軸的最大差值

Recall-Precision曲線

橫座標：Recall

縱座標：Precision

PRC

Recall-Precision曲線下面的面積

提升曲線

橫座標：$$ \dfrac{TP + FP}{total} $$

縱座標：TP

Precision

Precision = \dfrac{TP}{TP + FP}

Recall

Recall = \dfrac{TP}{TP + FN}

F-Measure

F1=\dfrac{2TP}{2TP+FP+FN}=\dfrac{2\cdot Precision \cdot Recall}{Precision+Recall}

Sensitivity

Sensitivity=\dfrac{TP}{TP+FN}

Accuracy

Accuray=\dfrac{TP + TN}{TP + TN + FP + FN}

Specificity

Specificity=\dfrac{TN}{FP+T}

Kappa

p_a =\dfrac{TP + TN}{TP + TN + FP + FN}

p_e = \dfrac{(TN + FP) * (TN + FN) + (FN + TP) * (FP + TP)}{(TP + TN + FP + FN) * (TP + TN + FP + FN)}

kappa = \dfrac{p_a - p_e}{1 - p_e}

Logloss

logloss=- \dfrac{1}{N}\sum_{i=1}^N \sum_{j=1}^My_{i,j}log(p_{i,j})

引數說明

名稱	中文名稱	描述	型別	是否必須？	預設值
predictionDetailCol	預測詳細資訊列名	預測詳細資訊列名	String	✓
labelCol	標籤列名	輸入表中的標籤列名	String	✓
positiveLabelValueString	正樣本	正樣本對應的字串格式。	String		null

程式碼示例

Python 程式碼

from pyalink.alink import *
import pandas as pd
useLocalEnv(1)
df = pd.DataFrame([
    ["prefix1", "{\"prefix1\": 0.9, \"prefix0\": 0.1}"],
    ["prefix1", "{\"prefix1\": 0.8, \"prefix0\": 0.2}"],
    ["prefix1", "{\"prefix1\": 0.7, \"prefix0\": 0.3}"],
    ["prefix0", "{\"prefix1\": 0.75, \"prefix0\": 0.25}"],
    ["prefix0", "{\"prefix1\": 0.6, \"prefix0\": 0.4}"]
])
inOp = BatchOperator.fromDataframe(df, schemaStr='label string, detailInput string')
metrics = EvalBinaryClassBatchOp().setLabelCol("label").setPredictionDetailCol("detailInput").linkFrom(inOp).collectMetrics()
print("AUC:", metrics.getAuc())
print("KS:", metrics.getKs())
print("PRC:", metrics.getPrc())
print("Accuracy:", metrics.getAccuracy())
print("Macro Precision:", metrics.getMacroPrecision())
print("Micro Recall:", metrics.getMicroRecall())
print("Weighted Sensitivity:", metrics.getWeightedSensitivity())

Java 程式碼

import org.apache.flink.types.Row;
import com.alibaba.alink.operator.batch.BatchOperator;
import com.alibaba.alink.operator.batch.evaluation.EvalBinaryClassBatchOp;
import com.alibaba.alink.operator.batch.source.MemSourceBatchOp;
import com.alibaba.alink.operator.common.evaluation.BinaryClassMetrics;
import org.junit.Test;
import java.util.Arrays;
import java.util.List;
public class EvalBinaryClassBatchOpTest {
  @Test
  public void testEvalBinaryClassBatchOp() throws Exception {
    List <Row> df = Arrays.asList(
      Row.of("prefix1", "{\"prefix1\": 0.9, \"prefix0\": 0.1}"),
      Row.of("prefix1", "{\"prefix1\": 0.8, \"prefix0\": 0.2}"),
      Row.of("prefix1", "{\"prefix1\": 0.7, \"prefix0\": 0.3}"),
      Row.of("prefix0", "{\"prefix1\": 0.75, \"prefix0\": 0.25}"),
      Row.of("prefix0", "{\"prefix1\": 0.6, \"prefix0\": 0.4}")
    );
    BatchOperator <?> inOp = new MemSourceBatchOp(df, "label string, detailInput string");
    BinaryClassMetrics metrics = new EvalBinaryClassBatchOp().setLabelCol("label").setPredictionDetailCol(
      "detailInput").linkFrom(inOp).collectMetrics();
    System.out.println("AUC:" + metrics.getAuc());
    System.out.println("KS:" + metrics.getKs());
    System.out.println("PRC:" + metrics.getPrc());
    System.out.println("Accuracy:" + metrics.getAccuracy());
    System.out.println("Macro Precision:" + metrics.getMacroPrecision());
    System.out.println("Micro Recall:" + metrics.getMicroRecall());
    System.out.println("Weighted Sensitivity:" + metrics.getWeightedSensitivity());
  }
}

執行結果

AUC: 0.8333333333333334
KS: 0.6666666666666666
PRC: 0.9027777777777777
Accuracy: 0.6
Macro Precision: 0.8
Micro Recall: 0.6
Weighted Sensitivity: 0.6

ALINK(三十六)：模型評估（一）二分類評估 (EvalBinaryClassBatchOp)

Java 類名：com.alibaba.alink.operator.batch.evaluation.EvalBinaryClassBatchOp Python 類名：EvalBinaryClassBatchOp

ALINK(三十八)：模型評估（三）多分類評估 (EvalMultiClassBatchOp)

Java 類名：com.alibaba.alink.operator.batch.evaluation.EvalMultiClassBatchOp Python 類名：EvalMultiClassBatchOp

ALINK(三十七)：模型評估（二）迴歸評估 (EvalRegressionBatchOp)

Java 類名：com.alibaba.alink.operator.batch.evaluation.EvalRegressionBatchOp Python 類名：EvalRegressionBatchOp

ALINK(三十九)：模型評估（四）多標籤分類評估 (EvalMultiLabelBatchOp)

多標籤分類評估 (EvalMultiLabelBatchOp) Java 類名：com.alibaba.alink.operator.batch.evaluation.EvalMultiLabelBatchOp

ALINK(二十六)：特徵工程（四）特徵離散化（四）二值化 (BinarizerBatchOp)

Java 類名：com.alibaba.alink.operator.batch.feature.BinarizerBatchOp Python 類名：BinarizerBatchOp

ALINK(十四)：資料處理（一）資料拆分 (SplitBatchOp)

Java 類名：com.alibaba.alink.operator.batch.dataproc.SplitBatchOp Python 類名：SplitBatchOp 功能介紹

ALINK(二十九)：特徵工程（八）特徵組合與交叉（三）Hash Cross特徵 (HashCrossFeatureBatchOp)

Hash Cross特徵 (HashCrossFeatureBatchOp) Java 類名：com.alibaba.alink.operator.batch.feature.HashCrossFeatureBatchOp

機器學習sklearn（二十一）：模型評估（一）交叉驗證：評估估算器的表現（一）簡介

學習預測函式的引數，並在相同資料集上進行測試是一種錯誤的做法: 一個僅給出測試用例標籤的模型將會獲得極高的分數，但對於尚未出現過的資料它則無法預測出任何有用的資訊。這種情況稱為overfitting（過擬合）. 為

Alink漫談(十六) ：Word2Vec原始碼分析之建立霍夫曼樹

Alink漫談(十六) ：Word2Vec原始碼分析之建立霍夫曼樹目錄Alink漫談(十六) ：Word2Vec原始碼分析之建立霍夫曼樹0x00 摘要0x01 背景概念1.1 詞向量基礎1.1.1 獨熱編碼1.1.2 分散式表示1.2 CBOW & Skip-Gram1.2.1

Flink例項（三十）：狀態管理（一）概述

參考連結; https://www.cnblogs.com/qiu-hua/p/13432337.html https://www.cnblogs.com/shengyang17/p/12549199.html

Hbase基礎（十七）：億級資料從 MySQL 到 Hbase 的三種同步方案與實踐（一）環境搭建

原文：https://blog.csdn.net/rlnlo2pnefx9c/article/details/108288956 1.導語大家好，我是光城，下面是我之前在gitchat上釋出的一個資料，今天全部開源！原始碼全部存放在本人github倉庫，地址：https://github.c

ALINK(十八)：資料處理（四）缺失值處理(二)缺失值填充訓練 (ImputerTrainBatchOp)

Java 類名：com.alibaba.alink.operator.batch.dataproc.ImputerTrainBatchOp Python 類名：ImputerTrainBatchOp

ALINK(二十八)：特徵工程（七）特徵組合與交叉（二）Cross特徵預測/訓練 (CrossFeaturePredictBatchOp)

Cross特徵預測 (CrossFeaturePredictBatchOp) Java 類名：com.alibaba.alink.operator.batch.feature.CrossFeaturePredictBatchOp

機器學習sklearn（三十二）：演算法例項（一）分類（一）分類決策樹（一）簡介

1 概述 1.1 決策樹是如何工作的　　決策樹（Decision Tree）是一種非引數的有監督學習方法，它能夠從一系列有特徵和標籤的資料中總結出決策規則，並用樹狀圖的結構來呈現這些規則，以解決分類和迴歸問題。決策樹演

《QT Creator快速入門》第十章：2D繪製（2）

1、抗鋸齒渲染由於歷史原因，QRect::right()和QRect::bottom()的返回值會偏離矩形真實的右下角，推薦使用QRectF來代替QRect，或者使用x() + width()和y() + height()來確定QRect的右下角。

《QT Creator快速入門》第十章：2D繪製（1）

1、QPainter 使用QPainter來進行繪製操作，常用的有：　　QPainter::drawPoint：繪製點　　QPainter::drawLine：繪製線　　QPainter::drawRect：繪製矩形　　QPainter::drawRoundedRect：繪製圓角矩形　　QPainter:

《QT Creator快速入門》第十章：2D繪製（3）

1、繪製文字使用QPainter::drawText()來繪製文字： void Widget::paintEvent(QPaintEvent *event)

WEB前端第四十六課——jQuery框架（四）關係節點

1.children()方法　　該方法用於選中某一個元素的所有直接子元素。　　　　語法：$(\"selector\").children(\"subSelector\");

Kafka基礎（十一）：基本面試題（一）

1）Kafka中的ISR、AR代表什麼？ ISR：與leader保持同步的follower集合 AR：分割槽的所有副本

scala 資料結構（十二）：集合例項（一）基本屬性和常用的操作、衍生集合、集合計算初級函式

例項一： package com.atguigu.scala.chapter07 /** * Author: Felix * Date: 2020/5/4 * Desc: 基本屬性和常用的操作

ALINK(三十六)：模型評估（一）二分類評估 (EvalBinaryClassBatchOp)

功能介紹

混淆矩陣

Roc曲線

AUC

K-S

KS

Recall-Precision曲線

PRC

提升曲線

Precision

Recall

F-Measure

Sensitivity

Accuracy

Specificity

Kappa

Logloss

引數說明

程式碼示例

Python 程式碼

Java 程式碼

執行結果

相關推薦