機器學習基礎自學筆記2
以前看視訊看部落格學習深度學習,總感覺心裡慌慌的,找不到重點,感覺不是很系統。現在雖然學的也很渣,不過感覺沒那麼慌了。教訓是要多看書,自己思考,思考不明白再查部落格大牛怎麼講的。希望我的感覺是對的吧。
1.1學習演算法
機器學習演算法是一種能夠從資料中學習的演算法。Mitchell提供一個簡潔的定義:對於某類任務和效能度量P,一個計算機程式被認為可以從經驗E中學習是指,通過經驗E改進後,它在任務T上由效能度量P衡量的效能有所提升。通常機器學習任務定義為機器學習系統應該如何處理樣本(example),樣本指我們從某些希望機器學習系統處理的物件或事件中收集到的已經量化的特徵(feature)的集合。一般將樣本表示成一個向量,向量的每一個元素是一個特徵。
常見的機器學習任務T:分類,輸入缺失分類,迴歸,轉錄,機器翻譯,結構化輸出,異常檢測,合成和取樣,缺失值補填,去噪,密度估計或概率質量函式估計。
效能度量P:對於分類、缺失輸入分類和轉錄任務通常用準確率或錯誤率來度量。效能度量的選擇看上去簡單且客觀,但是選擇一個與系統理想表現對應的效能度量通常是很難的。一些情況下,很難確定應該度量什麼。在執行迴歸任務時,是應該懲罰一些中等錯誤的系統還是較少犯錯但是犯大錯的系統?這卻決於具體情況。
經驗E:根據學習過程中的不同經驗,機器學習演算法大致分為無監督演算法和監督演算法。大致來說,無監督學習涉及觀察隨機向量的好幾個樣本,試圖顯示或隱式地學習出概率分佈;監督學習包含觀察隨機向量(x)極其相關聯值(y),然後從x估計y。監督學習(supervised learning)形象的描述為老師提供目標y給機器學習系統,指導其應該做什麼。無監督學習中,沒有老師指導,演算法必須學會在沒有指導的情況下理解資料。無監督學習和監督學習不是嚴格定義的術語,它們之間界限通常是很模糊的。儘管無監督學習和監督學習並非完全沒有交集的正式概念,它們確實有助於粗略分類我們研究機器學習演算法時遇到的問題。傳統上,人們將回歸、分類或者結構化輸出問題稱為監督學習,將支援其他任務的密度估計稱為無監督學習。
1.2 容量、過擬合和欠擬合
機器學習的主要挑戰時演算法必須能夠在先前未觀測到的新輸入上表現良好。這種在先前未觀測到的輸入上表現良好的能力稱為泛化(generalization)。未完待續。。。