1. 程式人生 > >機器學習中ground truth的解釋

機器學習中ground truth的解釋

機器學習包括有監督學習(supervised learning),無監督學習(unsupervised learning),和半監督學習(semi-supervised learning).

在有監督學習中,資料是有標註的,以(x, t)的形式出現,其中x是輸入資料,t是標註.正確的t標註是ground truth, 錯誤的標記則不是。(也有人將所有標註資料都叫做ground truth)

由模型函式的資料則是由(x, y)的形式出現的。其中x為之前的輸入資料,y為模型預測的值。

標註會和模型預測的結果作比較。在損失函式(loss function / error function)中會將y 和 t 作比較,從而計算損耗(loss / error)。 比如在最小方差中:

\frac{1}{2m} \sum_{i=1}^{m} (y - t)^2

因此如果標註資料不是ground truth,那麼loss的計算將會產生誤差,從而影響到模型質量。

比如輸入三維,判斷是否性感:

  1. 錯誤的資料

標註資料1 ( (84,62,86) , 1),其中x =(84,62,86), t = 1 。 標註資料2 ( (84,162,86) , 1),其中x =(84,162,86), t = 1 。

這裡標註資料1是ground truth, 而標註資料2不是。

預測資料1 y = -1 預測資料2 y = -1

Loss = \frac{1}{2\times 2} ((-1-1)^2 + (-1-1)^2) = 2

  1. 正確的資料

標註資料1 ( (84,62,86) , 1),其中x =(84,62,86), t = 1 。 標註資料2 ( (84,162,86) , 1),其中x =(84,162,86), t = -1 。 (改為ground truth)

這裡標註資料1和2都是ground truth。

預測資料1 y = -1 預測資料2 y = -1

Loss = \frac{1}{2\times 2} ((-1-1)^2 + (-1+1)^2) = 1

由於使用錯誤的資料,對模型的估計比實際要糟糕。另外,標記資料還被用來更新權重,錯誤標記的資料會導致權重更新錯誤。因此使用高質量的資料是很有必要的。

  • 在半監督學習中,對標記資料也要進行比較