1. 程式人生 > >機器學習基礎4--評估線性分類

機器學習基礎4--評估線性分類

inf 學習 org 研究 ima TE .org 線性 數據

技術分享圖片

如線性回歸一樣,我們也分成了訓練集和測試集.

用訓練集進行分類器的學習,用測試集來評估分類錯誤.

分類錯誤:

  測試集 -> 隱藏類型標簽 -> 放到分類器進行處理 -> 得出結果 -> 與定義好的類型標簽進行比較

錯誤率:

  分類錯誤數/總句子數

正確率:

  分類正確數/總句子數


那麽,什麽樣的正確率才是好的?

  至少要比隨機猜測效果要好.

  如果有k個分類,那麽正確率至少要大於等於1/k

同時要關註是否有意義:

  2010年,全球有90%的郵件是垃圾郵件.而只要說所有郵件都是垃圾郵件,就有90%的正確率!

錯誤:

技術分享圖片

偏差:

通常來說,數據量越大,偏差就會越小.

但是,即使有無限多的數據,偏差也不會為0.

技術分享圖片

那麽,前文我們提到的good和not good呢?

即使再多的數據,也永遠分辨不出這句話:

  The sushi was not good.

雙連詞模型:

在大數據量訓練的情況下,雙連詞模型擁有更小的偏差.

技術分享圖片

但是,一個句子不可能只包含正面和負面的預測,還應該包括對這個預測的信心有多大.

  “The sushi & everything else were awesome!” P(y=+|x) = 0.99

  “The sushi was good, the service was OK.” P(y=+|x) = 0.55

即:概率是多大.

end


課程:機器學習基礎:案例研究(華盛頓大學)

視頻鏈接:https://www.coursera.org/learn/ml-foundations/home/welcome

week3 Evaluating classification models

機器學習基礎4--評估線性分類