機器學習基礎4--評估線性分類
阿新 • • 發佈:2018-06-20
inf 學習 org 研究 ima TE .org 線性 數據
如線性回歸一樣,我們也分成了訓練集和測試集.
用訓練集進行分類器的學習,用測試集來評估分類錯誤.
分類錯誤:
測試集 -> 隱藏類型標簽 -> 放到分類器進行處理 -> 得出結果 -> 與定義好的類型標簽進行比較
錯誤率:
分類錯誤數/總句子數
正確率:
分類正確數/總句子數
那麽,什麽樣的正確率才是好的?
至少要比隨機猜測效果要好.
如果有k個分類,那麽正確率至少要大於等於1/k
同時要關註是否有意義:
2010年,全球有90%的郵件是垃圾郵件.而只要說所有郵件都是垃圾郵件,就有90%的正確率!
錯誤:
偏差:
通常來說,數據量越大,偏差就會越小.
但是,即使有無限多的數據,偏差也不會為0.
那麽,前文我們提到的good和not good呢?
即使再多的數據,也永遠分辨不出這句話:
The sushi was not good.
雙連詞模型:
在大數據量訓練的情況下,雙連詞模型擁有更小的偏差.
但是,一個句子不可能只包含正面和負面的預測,還應該包括對這個預測的信心有多大.
“The sushi & everything else were awesome!” P(y=+|x) = 0.99
“The sushi was good, the service was OK.” P(y=+|x) = 0.55
即:概率是多大.
end
課程:機器學習基礎:案例研究(華盛頓大學)
視頻鏈接:https://www.coursera.org/learn/ml-foundations/home/welcome
week3 Evaluating classification models
機器學習基礎4--評估線性分類