機器學習中ground truth的解釋
機器學習包括有監督學習(supervised learning),無監督學習(unsupervised learning),和半監督學習(semi-supervised learning).
在有監督學習中,資料是有標註的,以(x, t)的形式出現,其中x是輸入資料,t是標註.正確的t標註是ground truth, 錯誤的標記則不是。(也有人將所有標註資料都叫做ground truth)
由模型函式的資料則是由(x, y)的形式出現的。其中x為之前的輸入資料,y為模型預測的值。
標註會和模型預測的結果作比較。在損失函式(loss function / error function)中會將y 和 t 作比較,從而計算損耗(loss / error)。 比如在最小方差中:
\frac{1}{2m} \sum_{i=1}^{m} (y - t)^2
因此如果標註資料不是ground truth,那麼loss的計算將會產生誤差,從而影響到模型質量。
比如輸入三維,判斷是否性感:
- 錯誤的資料
標註資料1 ( (84,62,86) , 1),其中x =(84,62,86), t = 1 。 標註資料2 ( (84,162,86) , 1),其中x =(84,162,86), t = 1 。
這裡標註資料1是ground truth, 而標註資料2不是。
預測資料1 y = -1 預測資料2 y = -1
Loss = \frac{1}{2\times 2} ((-1-1)^2 + (-1-1)^2) = 2
- 正確的資料
標註資料1 ( (84,62,86) , 1),其中x =(84,62,86), t = 1 。 標註資料2 ( (84,162,86) , 1),其中x =(84,162,86), t = -1 。 (改為ground truth)
這裡標註資料1和2都是ground truth。
預測資料1 y = -1 預測資料2 y = -1
Loss = \frac{1}{2\times 2} ((-1-1)^2 + (-1+1)^2) = 1
由於使用錯誤的資料,對模型的估計比實際要糟糕。另外,標記資料還被用來更新權重,錯誤標記的資料會導致權重更新錯誤。因此使用高質量的資料是很有必要的。
- 在半監督學習中,對標記資料也要進行比較