林軒田機器學習基石(Machine Learning Foundation)
第一課 機器學習問題
什麼是機器學習?
什麼是“學習”?學習就是人類通過觀察、積累經驗,掌握某項技能或能力。就好像我們從小學習識別字母、認識漢字,就是學習的過程。而機器學習(Machine Learning),顧名思義,就是讓機器(計算機)也能向人類一樣,通過觀察大量的資料和訓練,發現事物規律,獲得某種分析問題、解決問題的能力。
機器學習可以被定義為:Improving some performance measure with experence computed from data. 也就是機器從資料中總結經驗,從資料中找出某種規律或者模型,並用它來解決實際問題。
什麼情況下會使用機器學習來解決問題呢?其實,目前機器學習的應用非常廣泛,基本上任何場合都能夠看到它的身影。其應用場合大致可歸納為三個條件:
- 事物本身存在某種潛在模式/規則
- 某些問題難以使用普通程式設計解決
- 有大量的資料樣本/資料可供使用
機器學習的組成
術語:
輸入x
輸出y
目標函式f,即最接近實際樣本分佈的規律
訓練樣本 data
假設hypothesis,一個機器學習模型對應了很多不同的hypothesis,通過演演算法A,選擇一個最佳的hypothesis對應的函式稱為矩g,g能最好地表示事物的內在規律,也是我們最終想要得到的模型表示式。
對於理想的目標函式f,我們是不知道的,我們手上拿到的是一些訓練樣本D,假設是監督式學習,其中有輸入x,也有輸出y。機器學習的過程,就是根據先驗知識選擇模型,該模型對應的hypothesis set(用H表示),H中包含了許多不同的hypothesis,
通過演演算法A,在訓練樣本D上進行訓練,選擇出一個最好的hypothes,對應的函式表示式g就是我們最終要求的。一般情況下,g能最接近目標函式f,這樣,機器學習的整個流程就完成了。模型包括:演演算法和假設。
與機器學習相關的領域有:資料探勘(Data Mining)、人工智慧(Artificial Intelligence)、統計(Statistics),機器學習與他們,基本類似,但也不完全一樣,他們之間沒有十分明確的界線。機器學習是這三個領域中的有力工具。
第一課 回答yes/no--什麼樣的機器學習演算法可以回答是非題
Guarantee of PLA、NonSeparable Data 兩個部分聽得有點懵,讓我梳理梳理再補充筆記。