結合原始碼分析Spark中的Accuracy(準確率), Precision(精確率), 和F1-Measure

阿新 • • 發佈：2019-01-18

例子

某大學一個系，總共100人，其中男90人，女10人，現在根據每個人的特徵，預測性別

Accuracy(準確率)

Accuracy=預測正確的數量需要預測的總數

計算

由於我知道男生遠多於女生，所以我完全無視特徵，直接預測所有人都是男生
我預測所的人都是男生，而實際有90個男生，所以
預測正確的數量 = 90
需要預測的總數 = 100
Accuracy = 90 / 100 = 90%

問題

在男女比例嚴重不均勻的情況下，我只要預測全是男生，就能獲得極高的Accuracy。
所以在正負樣本嚴重不均勻的情況下，Accuracy指標失效

Precision(精確率), Recall(召回率)

.	實際為真	實際為假
預測為真	TP	FP
預測為假	FN	TN

# 前面的T和F，代表預測是否正確
# 後面的P和N，代表預測是真還是假
TP：預測為真，正確了
FP：預測為真，結果錯了
TN：預測為假，正確了
FN：預測為假，結果錯了

Precision=TPTP+FP=預測為真，實際也為真預測為真的總數 Recall=TPTP+FN=預測為真，實際也為真實際為真的總數

計算

注意：在正負樣本嚴重不均勻的情況下，正樣本必須是數量少的那一類。這裡女生是正樣本。是不是女生，是則預測為真，不是則預測為假。

如果沒有預測為真的情況，計算時分母會為0，所以做了調整，也容易比較Accuracy和Precision, Recall的區別

.	實際為真	實際為假
預測為真	1	0
預測為假	10	89

Accuracy = （1 + 89）/ （1 + 0 + 10 + 89） = 90 / 100 = 0.9
Precision = 1 / 1 + 0 = 1
Recall = 1 / 1 + 10 = 0.09090909

注意:為方便與後面Spark的計算結果對比，無限迴圈小數，我們不做四合五入

問題

雖然我們稍微調整了預測結果，但是Accuracy依然無法反應預測結果。

而Precision在這裡達到了1，但是Recall卻極低。因此Precision，Recall的組合能夠反應我們的預測效果不佳。

但是Precision，Recall在對比的時候會出現問題，比如一個模型的Precision是0.9，Recall是0.19，那麼與上面的1和0.0909對比，哪個模型更好呢？

所以我們需要一個指標，能夠綜合的反應Precision和Recall

F1-Measure

F1值就是Precision和Recall的調和均值

1F1=1Precision+1Recall

整理後：

F1=2×Precision×RecallPrecision+Recall

計算

計算上面提到的對比情況

F1 = (2 * 1 * 0.09090909) / 1 + 0.09090909 = 0.1666666
F1 = (2 * 0.9 * 0.19) / 0.9 + 0.19 = 0.3137

很顯然後一種更好

調整Precision， Recall的權重

Fa=(a2+1)×Precision×Recalla2×(Precision+Recall)

當a等於1時，Precision，Recall各佔50%，就是F1-Measure了

Spark原始碼分析

Spark中API計算Precision，Recall，F1

用Spark API計算出上面我們手工計算出的值

import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics
import org.apache.spark.{SparkConf, SparkContext}

object Test {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("test").setMaster("local") // 除錯的時候一定不要用local[*]
    val sc = new SparkContext(conf)
    sc.setLogLevel("ERROR")

    // 我們先構造一個與上文一樣的資料
    /**
      *         實際為真  實際為假
      * 預測為真   1        0
      * 預測為假   10       89
      */
    // 左邊是預測為真的概率，右邊是真實值
    val TP = Array((1.0, 1.0)) // 預測為真，實際為真

    val TN = new Array[(Double, Double)](89) // 預測為假， 實際為假

    for (i <- TN.indices) {
      TN(i) = (0.0, 0.0)
    }

    val FP = new Array[(Double, Double)](10) // 預測為假， 實際為真

    for (i <- FP.indices) {
      FP(i) = (0.0, 1)
    }

    val all = TP ++ TN ++ FP

    val scoreAndLabels = sc.parallelize(all)

    // 列印觀察資料
    //    scoreAndLabels.collect().foreach(println)
    //    println(scoreAndLabels.count())
    // 到這裡，我們構造了一個與上文例子一樣的資料

    val metrics = new BinaryClassificationMetrics(scoreAndLabels)

    // 下面計算的值，我們先只看右邊的數，它表示計算的precision,recall,F1等
    // 左邊是Threshold，後面會細說
    /**
      * (1.0,1.0) // precision跟我們自己之前計算的一樣
      * (0.0,0.11) // 這是什麼？先不管
      */
    metrics.precisionByThreshold().collect().foreach(println)
    println("---")

    /**
      * (1.0,0.09090909090909091) // recall跟我們自己之前計算的一樣
      * (0.0,1.0) // 先忽略
      */
    metrics.recallByThreshold().collect().foreach(println)
    println("---")

    /**
      * (1.0,0.16666666666666669) // f1跟我們自己之前計算的一樣
      * (0.0,0.19819819819819817) // 先忽略
      */
    metrics.fMeasureByThreshold().collect().foreach(println)
  }
}

至此，我們用Spark API計算出了各個值。但是有幾個疑問

無論是precision，recall，還是fMeasure，後面都跟一個ByThreshold，為什麼？
這三個指標，不應該是一個數嘛，為什麼返回一個RDD，裡面包含一堆數？

要弄清楚，就出要知道它們是怎麼計算出來的

計算分析（以Precision為例）

從程式碼的角度，一步步跟蹤到Precision的計算公式，公式找到了值也就算出來了
從資料的角度，你的輸入資料是怎麼一步步到結果的

程式碼角度

# 類宣告
# scoreAndLabels是一個RDD，存放預測為真的概率和真實值
# numBins，先忽略
class BinaryClassificationMetrics (val scoreAndLabels: RDD[(Double, Double)], val numBins: Int)

呼叫BinaryClassificationMetrics的precisionByThreshold方法計算，precision

new BinaryClassificationMetrics(scoreAndLabels).precisionByThreshold()

跟蹤進入precisionByThreshold方法

def precisionByThreshold(): RDD[(Double, Double)] = createCurve(Precision)
# 呼叫了createCurve(Precision)
# precisionByThreshold返回的RDD,就是這個createCurve方法的返回值
# 兩個問題
# createCurve是什麼？
# 引數Precision又是什麼？

跟蹤進入createCurve方法

/** Creates a curve of (threshold, metric). */
private def createCurve(y: BinaryClassificationMetricComputer): RDD[(Double, Double)] = {
    // confusions肯定是一個RDD，因為它呼叫了map，然後就作為返回值返回了
    // 所以confusions是關鍵，對它做變換，就能得到結果
    confusions.map { case (s, c) =>
      // precisionByThreshold返回的RDD，左邊是threshold，右邊是precision
      // 所以這裡的s，就是threshold
      // y(c)，就是precision
      // y是傳入的引數，也就是createCurve(Precision)中的，Precision
      // 下面就先看看Precision是什麼
      (s, y(c))
    }
}

跟蹤進入Precision

// 上文中的y(c)，也就是Precision(c)，這語法，自然是呼叫apply方法
/** Precision. Defined as 1.0 when there are no positive examples. */
private[evaluation] object Precision extends BinaryClassificationMetricComputer {
  override def apply(c: BinaryConfusionMatrix): Double = {
    // 看名字numTruePositives，就是TP的數量嘛
    // totalPositives = TP + FP
    val totalPositives = c.numTruePositives + c.numFalsePositives
    // totalPositives為0，也就一個真都沒預測
    if (totalPositives == 0) {
      // 0 / 0，會出錯，這裡是直接返回1
      1.0
    } else {
      // 公式出現
      // Precision = TP / (TP + FP)
      c.numTruePositives.toDouble / totalPositives
    }
  }
}

到這裡找到了Precision的計算公式，但是上面提到的兩個疑問，還沒有解決，Threshold怎麼回事，返回RDD幹嘛？

但是通過上面的分析，我們找到了線索，confusions這個通過變換就能出結果的變數，也許就是答案。

資料角度

跟蹤到confusions的宣告

private lazy val (
    cumulativeCounts: RDD[(Double, BinaryLabelCounter)],
    confusions: RDD[(Double, BinaryConfusionMatrix)]) = {
    // ... 省略了60行左右
    (cumulativeCounts, confusions)
}

這60行裡做了什麼，我們拷貝出來，一步步分析

import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Test {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("test").setMaster("local") // 除錯的時候一定不要用local[*]
    val sc = new SparkContext(conf)
    sc.setLogLevel("ERROR")

    val TP = Array((1.0, 1.0))

    val TN = new Array[(Double, Double)](89)

    for (i <- TN.indices) {
      TN(i) = (0.0, 0.0)
    }

    /**
      * *******這裡改了********這裡改了********這裡改了*****
      */
    // 從10改成了5，有5個樣本有60%的概率是真的；另外5個設定成了40%，在下面
    val FP1 = new Array[(Double, Double)](5)

    for (i <- FP1.indices) {
      FP1(i) = (0.6, 1)
    }

    val FP2 = new Array[(Double, Double)](5) // 有5個樣本有40%的概率是真的

    for (i <- FP2.indices) {
      FP2(i) = (0.4, 1)
    }

    val all = TP ++ TN ++ FP1 ++ FP2

    val scoreAndLabels = sc.parallelize(all, 2) // 調整並行度為2，後面會說，為什麼要調整

    // 列印觀察資料
    scoreAndLabels.collect().foreach(println)

    val metrics = new BinaryClassificationMetrics(scoreAndLabels)

    // 先看下調整後的結果
    // 左邊一列多了0.6,和0.4，猜的話，應該是因為上面的概率我們添加了0.6和0.4
    // 後面會說，具體是怎麼出來的
    /**
      * (1.0,1.0) // 當Threshold為1時，precision是1
      * (0.6,1.0) // 當Threshold為0.6時，precision還是1.0
      * (0.4,1.0) // 以此類推
      * (0.0,0.11)
      */
    println("-- precisionByThreshold --")
    metrics.precisionByThreshold().collect().foreach(println)

    /**
      * (1.0,0.09090909090909091)
      * (0.6,0.5454545454545454)
      * (0.4,1.0)
      * (0.0,1.0)
      */
    println("-- recallByThreshold --")
    metrics.recallByThreshold().collect().foreach(println)

    /**
      * (1.0,0.16666666666666669)
      * (0.6,0.7058823529411764)
      * (0.4,1.0)
      * (0.0,0.19819819819819817)
      */
    println("--  fMeasureByThreshold --")
    metrics.fMeasureByThreshold().collect().foreach(println)

    // 下面以Precision的計算為例

    // 下面的程式碼是初始化confusions的程式碼, 在BinaryClassificationMetrics類中，Spark 1.6.1版本的149行開始

    // 1. 以預測的概率為key，計算在這個概率下，有多少個；比如：0.6這個概率，出現了多少個(0.6, 1)或0.6, 0)
    /**
      * (1.0,{numPos: 1, numNeg: 0}) // 1.0，只有一個
      * (0.6,{numPos: 5, numNeg: 0}) // 0.6，5個，上面我們修改的
      * (0.4,{numPos: 5, numNeg: 0}) // 0.4，同樣是5個
      * (0.0,{numPos: 0, numNeg: 89}) // 0.0， 89個
      */
    println("-- binnedCounts --")
    val binnedCounts = scoreAndLabels.combineByKey(
      // BinaryLabelCounter用於儲存累加的numPositives和numNegatives
      // 先說下label是什麼，scoreAndLabels中右邊那一列，只可能是0或1， 是真實值
      // BinaryLabelCounter中判斷是Positive還是Negatives，是通過label，而不是你自己預測的概率，不是左邊那一列
      // label > 0.5 為Positive
      createCombiner = (label: Double) => new BinaryLabelCounter(0L, 0L) += label,
      mergeValue = (c: BinaryLabelCounter, label: Double) => c += label,
      mergeCombiners = (c1: BinaryLabelCounter, c2: BinaryLabelCounter) => c1 += c2
    ).sortByKey(ascending = false)

    binnedCounts.collect().foreach(println)

    println("-- agg --")
    // agg是一個數組，collect返回一個數組
    // 前面設定了Partition為2,所以這裡會有兩條資料
    // 計算每個Partition中numPos, numNeg的總和
    /**
      * {numPos: 6, numNeg: 0}
      * {numPos: 5, numNeg: 89}
      */
    val agg = binnedCounts.values.mapPartitions { iter =>
      val agg = new BinaryLabelCounter()
      iter.foreach(agg += _)
      Iterator(agg)
    }.collect()

    agg.foreach(println)

    // partitionwiseCumulativeCounts的長度是Partition數量加1
    // partitionwiseCumulativeCounts的每一行是每個Partition的初始numPos, numNeg數量; 這點很重要, 後面會用到
    /**
      * {numPos: 0, numNeg: 0} // 第一個Partition的初始, 都是0,
      * {numPos: 6, numNeg: 0} // 第一個Partition累加後, 等於第二個Partition的初始值；同樣可以表明第一個Partition中有6個是Positive
      * {numPos: 11, numNeg: 89} // 最後一個位置，就是正負樣本的總數; 一共只有兩個Partition，都累加起來自然就是總和。
      */
    println("-- partitionwiseCumulativeCounts --")
    val partitionwiseCumulativeCounts =
    // 建立一個新的BinaryLabelCounter，然後把agg中的值，從左往右，加一遍
      agg.scanLeft(new BinaryLabelCounter())(
        (agg: BinaryLabelCounter, c: BinaryLabelCounter) => agg.clone() += c)

    partitionwiseCumulativeCounts.foreach(println)

    // 列印正負樣本總數
    val totalCount = partitionwiseCumulativeCounts.last
    println(s"Total counts: $totalCount")

    // 列印Partition的數量
    println("getNumPartitions = " + binnedCounts.getNumPartitions)

    // binnedCounts
    // binnedCounts經過mapPartitionsWithIndex後就變成了cumulativeCounts
    // 先看cumulativeCounts是怎麼算出來, 跟下面那組cumulativeCounts資料的結合起來看
    /**
      * (1.0,{numPos: 1, numNeg: 0}) // 第一行是一樣的
      * (0.6,{numPos: 5, numNeg: 0}) // 第一行加上第二上，就是cumulativeCounts的第二行
      * (0.4,{numPos: 5, numNeg: 0}) // 前三行相加，就是cumulativeCounts的第三行
      * (0.0,{numPos: 0, numNeg: 89}) // 以此類推，前四行相加，就是cumulativeCounts的第四行
      */

    // cumulativeCounts
    // 那cumulativeCounts的這些數是什麼意思呢？
    /**
      * (1.0,{numPos: 1, numNeg: 0}) // 當取Threshold為1時，有一個樣本，我預測為真
      * (0.6,{numPos: 6, numNeg: 0}) // 當取Threshold為0.6時，有6個樣本，我預測為真
      * (0.4,{numPos: 11, numNeg: 0}) // 以此類推
      * (0.0,{numPos: 11, numNeg: 89})
      */
    println("-- cumulativeCounts --")
    // 程式碼是怎麼實現的, 資料可是在RDD上
    // 首先binnedCounts是sortByKey排過序的,每個Partitions中是有序的
    // 再加上Partition的Index, 和之前的計算的partitionwiseCumulativeCounts, 就能夠計算出來
    /**
      * partitionwiseCumulativeCounts
      * {numPos: 0, numNeg: 0} index為0的Partition, 剛開始時, numPos和numNeg都是0
      * {numPos: 6, numNeg: 0} 經過index為0的Partition累加後, index為1的Partition, 剛開始時, numPos為6
      * {numPos: 11, numNeg: 89}
      */
    val cumulativeCounts = binnedCounts.mapPartitionsWithIndex(
      (index: Int, iter: Iterator[(Double, BinaryLabelCounter)]) => {
        val cumCount = partitionwiseCumulativeCounts(index)
        iter.map { case (score, c) =>
          // index為0時, cumCount為{numPos: 0, numNeg: 0}; 也就是第一個Partition, 剛開始時, numPos和numNeg都是0
          // 第一個過來的是, (1.0,{numPos: 1, numNeg: 0}), 經過cumCount += c, 變成了(1.0,{numPos: 1, numNeg: 0})
          // 第二個過來的是, (0.6,{numPos: 5, numNeg: 0}), 經過cumCount += c, (0.6,{numPos: 6, numNeg: 0})
          // index為1時, cumCount為{numPos: 6, numNeg: 0}; 也就是第二個Partition, 剛開始時, numPos為6
          // 第一個過來的是, (0.4,{numPos: 5, numNeg: 0}), 經過cumCount += c, 變成了(0.4,{numPos: 11, numNeg: 0})
          // 第二個過來的是, (0.0,{numPos: 0, numNeg: 89}), 經過cumCount += c, 變成了(0.0,{numPos: 11, numNeg: 89})
          cumCount += c
          (score, cumCount.clone())
        }
        // preservesPartitioning = true, mapPartitionsWithIndex運算元計算過程中，不能修改key
      }, preservesPartitioning = true)

    cumulativeCounts.collect().foreach(println)

    /**
      * BinaryConfusionMatrixImpl({numPos: 1, numNeg: 0},{numPos: 11, numNeg: 89})
      * 這個矩陣應該轉換成下面這種形式來看
      *
      *          實際為真  實際為假
      * 預測為真   1        0
      * 預測為假   11-1     89-0
      *
      * 所以當Threshold不斷變化時，矩陣也在不斷變化，因此在precision在不斷變化
      *
      * (1.0,BinaryConfusionMatrixImpl({numPos: 1, numNeg: 0},{numPos: 11, numNeg: 89}))
      * (0.6,BinaryConfusionMatrixImpl({numPos: 6, numNeg: 0},{numPos: 11, numNeg: 89}))
      * (0.4,BinaryConfusionMatrixImpl({numPos: 11, numNeg: 0},{numPos: 11, numNeg: 89}))
      * (0.0,BinaryConfusionMatrixImpl({numPos: 11, numNeg: 89},{numPos: 11, numNeg: 89}))
      */
    println("-- confusions --")
    val confusions = cumulativeCounts.map { case (score, cumCount) =>
      (score, BinaryConfusionMatrixImpl(cumCount, totalCount).asInstanceOf[BinaryConfusionMatrix])
    }

    confusions.collect().foreach(println)

    println("-- precision --")
    def createCurve(y: BinaryClassificationMetricComputer): RDD[(Double, Double)] = {
      confusions.map { case (s, c) =>
        (s, y(c))
      }
    }

    createCurve(Precision).collect().foreach(println)

    sc.stop()
  }

  object Precision extends BinaryClassificationMetricComputer {
    override def apply(c: BinaryConfusionMatrix): Double = {
      val totalPositives = c.numTruePositives + c.numFalsePositives
      if (totalPositives == 0) {
        1.0
      } else {
        c.numTruePositives.toDouble / totalPositives

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    結合原始碼分析Spark中的Accuracy(準確率), Precision(精確率), 和F1-Measure
      
							
							
							



例子

某大學一個系，總共100人，其中男90人，女10人，現在根據每個人的特徵，預測性別



Accuracy(準確率)

Accuracy=預測正確的數量需要預測的總數



計算

由於我知道男生遠多於女生，所以我完全無視特徵，直接預測所有人都是 

  
 

    

    
    準確率，召回率和F1值
      
							
							
							



正確率、召回率和F值是在魚龍混雜的環境中，選出目標的重要評價指標。 
        不妨看看這些指標的定義先： 
正確率 = 正確識別的個體總數 /  識別出的個體總數 
召回率 = 正確識別的個體總數 /  測試集中存在的個體總數 
F值  = 正確 

  
 

    

    
    準確率(Accuracy) 精確率(Precision) 召回率(Recall)和F1-Measure
      搜索   例如   總數   文檔   measure   目標   就是   原本   pos   先驗知識
　　我們首先將數據的類別統一分為兩類：正類和負類。例如：一個數據集中的數據一共有3類，小學生、中學生、高中生。我們的目標是預測小學生，那麽標記為小學生的數據就是正類，標記為其他類型的數據都是負類。
 

  
 

    

    
    Spring裡的aop實現方式和原始碼分析 java中代理，靜態代理，動態代理以及spring aop代理方式，實現原理統一彙總
      使用"橫切"技術，AOP把軟體系統分為兩個部分：核心關注點和橫切關注點。業務處理的主要流程是核心關注點，與之關係不大的部分是橫切關注點。橫切關注點的一個特點是，他們經常發生在核心關注點的多處，而各處基本相似，比如許可權認證、日誌、事務。AOP的作用在於分離系統中的各種關注點，將核心關注點和橫切關注點分離開來。 

  
 

    

    
    機器學習演算法中的準確率(Precision)、召回率(Recall)、F值(F-Measure)
       
  
  
 資料探勘、機器學習和推薦系統中的評測指標—準確率(Precision)、召回率(Recall)、F值(F-Measure)簡介。 在機器學習、資料探勘、推薦系統完成建模之後，需要對模型的效果做評價。 業內目前常常採用的評價指標有準確率(Precision)、召回率(Recall)、F值(F- 

  
 

    

    
    （轉載）準確率（accuracy），精確率（Precision），召回率（Recall）和綜合評價指標（F1-Measure ）-絕對讓你完全搞懂這些概念
      自然語言處理(ML),機器學習(NLP),資訊檢索(IR)等領域,評估(evaluation)是一個必要的工作,而其評價指標往往有如下幾點:準確率(accuracy),精確率(Precision),召回率(Recall)和F1-Measure。 
本文將簡單介紹其中幾個概念。中文中這幾個評價指標翻譯各有不同， 

  
 

    

    
    Java NIO學習筆記：結合原始碼分析+Reactor模式
      
                Java NIO和IO的主要區別

下表總結了Java NIO和IO之間的主要差別，我會更詳細地描述表中每部分的差異。


			IO                           NIO
			面向流                     面向緩衝
			阻塞IO  

  
 

    

    
    getJSONObject與optJSONObject的區別,結合原始碼分析
      
                *json解析常見問題:

getJSONObject與optJSONObject的區別,下面結合原始碼和案例來分析當我們使用這兩週方法來解析資料時,哪種比較好.

原始碼分析:

//使用getJSONObject時,如果返回的物件不是JSONObject,丟擲JSONEx 

  
 

    

    
    Spark2.x原始碼分析---spark-submit提交流程
      
                本文以spark on yarn的yarn-cluster模式進行原始碼解析，如有不妥之處，歡迎吐槽。

步驟1.spark-submit提交任務指令碼

spark-submit 
--class 主類路徑 \
--master yarn \
--deploy-mode c 

  
 

    

    
    結合原始碼分析==與equals與hashCode
      
                .equals()與==

equals是所有類都具有的方法，注意基本八種資料型別是不具備equals方法的，只有他們對應的包裝類才具備。

//Character    
    public boolean equals(Object obj) {
        if  

  
 

    

    
    準確率（accuracy），精確率（Precision），召回率（Recall）和綜合評價指標（F1-Measure ）
      
                自然語言處理(ML),機器學習(NLP),資訊檢索(IR)等領域,評估(evaluation)是一個必要的工作,而其評價指標往往有如下幾點:準確率(accuracy),精確率(Precision),召回率(Recall)和F1-Measure。

本文將簡單介紹其中幾個概念。 

  
 

    

    
    自定義view流程（結合原始碼分析）
      
							
							
							一、View的繪製流程
主要是：測量（measure）、佈局（layout）、繪製（draw）三大流程。

對於一個普通View（不是容器）
主要是關心測量和繪製兩個過程，測量可以確定自身的寬、高、大小，繪製可以顯示出view的具體內容（呈現在螢幕上的）。
對於 

  
 

    

    
    Activity啟動流程原始碼分析(應用中)
      
							
							
							在移動應用開發中，Android四大元件之一Activity是最常用的。很多介面，如：閃屏、主介面、次功能介面等都需要Activity來作為主要的載體；介面與介面之間，即不同的Activity之間也都存在跳轉切換，弄懂這其中跳轉切換原理，將有助於我們更好的理解A 

  
 

    

    
    準確率(Accuracy), 精確率(Precision), 召回率(Recall)和F1-Measure
      
                

機器學習(ML),自然語言處理(NLP),資訊檢索(IR)等領域,評估(Evaluation)是一個必要的 工作,而其評價指標往往有如下幾點:準確率(Accuracy),精確率(Precision),召回率(Recall)和F1-Measure。(注： 相對來說，IR 的 

  
 

    

    
    UCOSII啟動流程詳解（結合原始碼分析）
      
                
μC/OS-Ⅱ初始化
在呼叫μC/OS-Ⅱ的任何其它服務之前，μC/OS-Ⅱ要求使用者首先呼叫系統初始化函式
OSIint()。OSIint()初始化μC/OS-Ⅱ所有的變數和資料結構（見 OS_CORE.C）。OSInit()建立空閒任務 idle task，這個任務總是 

  
 

    

    
    準確率(Accuracy), 精確率(Precision), 召回率(Recall)和F1-Measure，confusion matrix
      
                

自然語言處理(ML),機器學習(NLP),資訊檢索(IR)等領域,評估(Evaluation)是一個必要的工作,而其評價指標往往有如下幾點:準確率(Accuracy),精確率(Precision),召回率(Recall)和F1-Measure。

本文將簡單介紹其中幾個概 

  
 

    

    
    Spark原始碼分析-spark叢集啟動及任務執行
      
							
							
							注： 因為基於Akka的Actor的RPC版本相對容易理解一點，本文分析使用的Spark版本如下：



<dependency>
    <groupId>org.apache.spark</groupId>
    < 

  
 

    

    
    資料分析，資訊檢索，分類體系中常用指標簡明解釋——關於準確率、召回率、F1、AP、mAP、ROC和AUC
      

在資訊檢索、分類體系中，有一系列的指標，搞清楚這些指標對於評價檢索和分類效能非常重要，因此最近根據網友的部落格做了一個彙總。

準確率、召回率、F1

資訊檢索、分類、識別、翻譯等領域兩個最基本指標是召回率(Recall Rate)和準確率(Precision Rate)，召回率也叫查全率，準確率也叫查準 

  
 

    

    
    5. SOFAJRaft原始碼分析— RheaKV中如何存放資料？
      概述
上一篇講了RheaKV是如何進行初始化的，因為RheaKV主要是用來做KV儲存的，RheaKV讀寫的是相當的複雜，一起寫會篇幅太長，所以這一篇主要來講一下RheaKV中如何存放資料。
我們這裡使用一個客戶端的例子來開始本次的講解：
public static void main(final String 

  
 

    

    
    從原始碼看Spark讀取Hive表資料小檔案和分塊的問題
       
 
 原文連結：https://mp.csdn.net/postedit/82423831  
 使用Spark進行資料分析和計算早已成趨勢，你是否關注過讀取一張Hive表時Task數為什麼是那麼多呢?它跟什麼有關係呢? 最近剛好碰到這個問題，而之前對此有些模糊，所以做了些整理，希望大家拍磚探討