[機器學習筆記] Note1--機器學習簡介
閱讀本文大約需要 2 分鐘
本文結構:
這是學習 Andrew Ng 在 Coursea 上的機器學習課程所做的筆記。
什麼是機器學習
對於機器學習,並沒有一個一致認同的定義,一個比較古老的定義是由Arthur Samuel
在 1959 年給出的:
機器學習研究的是如何賦予計算機在沒有被明確程式設計的情況下仍能夠學習的能力。(Field of study that fives computers the ability to learn without being explicily programmed.)
隨後他編寫了一個跳棋遊戲的程式,並且讓這個程式和其自身玩了幾萬局跳棋遊戲,並且記錄下來棋盤上的什麼位置可能會導致怎樣的結果,隨著時間的推移,計算機學會了棋盤上的哪些位置可能會導致勝利,並且最終戰勝了設計程式的 Samuel。
另一個比較現代且形式化的定義是由Tom Mitchell
在 1998 年給出的:
對於某個任務T和表現的衡量P,當計算機程式在任務T的表現上,經過P的衡量,隨著經驗E而增長,我們便稱計算機程式能夠通過經驗E來學習該任務。
在上述的跳棋遊戲的例子中,任務 T 是玩跳棋遊戲,P 是遊戲的輸贏,而經驗E 則是一局局的遊戲。
一些機器學習的應用例子:
- 資料探勘
- 一些無法通過手動程式設計來編寫的應用:如自然語言處理,計算機視覺
- 一些自助式的程式:如推薦系統
- 理解人類是如何學習的
監督學習(Supervised Learning)
監督學習是什麼呢?
下面我們用一個房價的例子來介紹下監督學習,如下所示:
即通過給出房子面積和房價的一些資料,來預測一個新的房子面積所能賣出的房價。
所以,監督學習是指給出標記的資料集,並且已知輸入和輸出的關係,然後計算一個模型,可以對新的輸入預測對應的輸出結果。
監督學習分為兩類問題,分別是迴歸問題和分類問題。迴歸問題的輸出是一個連續值,比如在預測房價這個例子中,預測房價是一個迴歸問題,其結果是連續值。而分類問題是得到一個離散值的輸出,比如同樣是預測房價的例子,如果問題從預測賣出的房價變成賣出的房價是偏高還是偏低,就是屬於分類問題,因為其答案可以用 0 或 1 表示高了或者低了。
課程中給出另一個例子說明分類問題,如下圖所示:
問題是假設預測一個乳腺癌是否是惡性的,圖中座標軸橫軸表示腫瘤的大小,縱軸表示病人的年齡,以 O 表示良性腫瘤,以X表示惡性腫瘤。所以問題就是判斷是良性還是惡性腫瘤,這就是一個分類問題。
非監督學習(Unsupervised Learning)
在監督學習中,無論是迴歸問題還是分類問題,資料集都有一個明確的結果。
但非監督學習中,資料並沒有一個結果,有的只是特徵,即非監督學習要解決的問題是這些資料是否可以分成不同的組。
因此,非監督學習中典型的例子就是聚類問題。例如對一個大型的資料中心的網路傳輸資料情況進行分析,發現那些多數時候是在協作的計算機。
課程小結
這是第一節課程的內容,主要介紹了機器學習是什麼,以及機器學習的兩大學習問題–監督學習和非監督學習。
本節課程比較簡單,但介紹的內容還是很重要的,後面介紹的大多數機器學習演算法都屬於監督學習或者非監督學習,當然實際上機器學習還不只有這兩種學習問題,比如最近一兩年開始熱門起來的強化學習問題,以及半監督學習問題,但在吳恩達老師這門入門課程中並不會介紹這些內容。
歡迎關注我的公眾號,一起交流,學習和進步!