機器學習知識點01-監督學習
從這篇隨筆開始是觀看斯坦福大學(吳恩達)機器學習課程,個人覺得課程講的非常棒,也很容易理解,特此總結知識點筆記。筆記如下:
我們應用學習算法,可以在這組數據中畫一條直線,或者換句話說,擬合一條直線,根 據這條線我們可以推測出,這套房子可能賣$150, 000,當然這不是唯一的算法。可能還有更 好的,比如我們不用直線擬合這些數據,用二次方程去擬合可能效果會更好。根據二次方程 的曲線,我們可以從這個點推測出,這套房子能賣接近$200, 000。稍後我們將討論如何選擇 學習算法,如何決定用直線還是二次方程來擬合。兩個方案中有一個能讓你朋友的房子出售 得更合理。這些都是學習算法裏面很好的例子。以上就是監督學習的例子。
可以看出,監督學習指的就是我們給學習算法一個數據集。這個數據集由“正確答案” 組成。在房價的例子中,我們給了一系列房子的數據,我們給定數據集中每個樣本的正確價 格,即它們實際的售價然後運用學習算法,算出更多的正確答案。比如你朋友那個新房子的價格。用術語來講,這叫做回歸問題。我們試著推測出一個連續值的結果,即房子的價格。 一般房子的價格會記到美分,所以房價實際上是一系列離散的值,但是我們通常又把房價看 成實數,看成是標量,所以又把它看成一個連續的數值。
回歸這個詞的意思是,我們在試著推測出這一系列連續值屬性。
讓我們來看一組數據:這個數據集中,橫軸表示腫瘤的大小,縱軸上,我標出 1 和 0 表 示是或者不是惡性腫瘤。我們之前見過的腫瘤,如果是惡性則記為 1 ,不是惡性,或者說良 性記為 0。
我有 5 個良性腫瘤樣本,在 1 的位置有 5 個惡性腫瘤樣本。現在我們有一個朋友很不幸 檢查出乳腺腫瘤。假設說她的腫瘤大概這麽大,那麽機器學習的問題就在於,你能否估算出腫瘤是惡性的或是良性的概率。用術語來講,這是一個分類問題。
分類指的是,我們試著推測出離散的輸出值:0 或 1 良性或惡性,而事實上在分類問題 中,輸出可能不止兩個值。比如說可能有三種乳腺癌,所以你希望預測離散輸出 0、1、2、 3。0 代表良性,1 表示第一類乳腺癌,2 表示第二類癌癥,3 表示第三類,但這也是分類問題。
總結一下,其基本思想是,我們數據集中的每個樣 本都有相應的“正確答案”(或者說人工給數據集標記標簽),再根據這些樣本作出預測,就像房子和腫瘤的例子中做的那樣的學習算法叫做監督學習; 還介紹了回歸問題,即通過回歸來推出一個連續的輸出,之後我們介紹了分類問題,其目標是推出一組離散的結果。
機器學習知識點01-監督學習