1. 程式人生 > >Week One - 2. Andrew Ng - 監督學習

Week One - 2. Andrew Ng - 監督學習

情景一

假設你想預測房價, 你朋友的房子面積是750,你想知道這房子能賣多少錢,機器學習演算法如何做到這一點呢?


這裡寫圖片描述

  橫座標:房子的面積
  縱座標:房子的價格,單位是1000$

方法一:
擬合出一條直線,使其儘量匹配到所有資料,然後用這條直線的方程預測房價。
方法二:
擬合出一條曲線,使其儘量匹配到所有資料,然後用這條曲線的方程預測房價。

定義:
預測連續值的監督學習稱為迴歸:在已知正確答案的資料集中找到規律,幫助預測更多的正確答案。

情景二:

假設現在我們想預測腫瘤是惡性腫瘤還是良性腫瘤: 有個人不幸得了腫瘤,現在我們要預測他的腫瘤是良性的還是惡性的。

這裡寫圖片描述

縱軸:1表示惡性腫瘤,0表示良性腫瘤
橫軸:腫瘤的大小

定義:
預測離散值的監督學習稱為分類:在已知正確答案的資料集中找到規律,幫助預測更多的正確答案。

補充:
1. 分類問題的另外一種表現形式,利用不同的形狀表示,而不是0,1這樣的標籤。

這裡寫圖片描述

2. 現實中可能不只是二分類問題,而是多分類的問題,例如惡性腫瘤的進一步細分-1號惡性,2號惡性,3號惡性
3. 現實中往往有兩個特徵,而不僅僅是腫瘤大小一項,已知病人年齡和腫瘤大小,而機器學習要做的任務就是在惡性和良性腫瘤之間找到一條線,將它們區分開來。如下
這裡寫圖片描述

4. 還可能會涵蓋更多的特徵: 例如腫瘤厚度,腫瘤細胞大小和形狀的一致性等等, 而我們一般用到的學習演算法能夠處理無窮多個特徵。那麼問題來了,在特徵無窮增長的情況下,我們如果處理記憶體不足的問題呢?後面我們會講到支援向量機這一演算法,能夠很好的解決多特徵機器學習的問題。\

總結:

監督學習: 對於資料集中的每個資料,已知其正確答案,演算法會基於已經存在的樣本進行學習,發現規律。
迴歸:預測連續值的監督學習
分類:預測離散值的監督學習

小測驗:

請問以下問題,哪些是分類問題,哪些是迴歸問題?
問題一: 你有一堆貨物的清單,你想預測接下里有多少貨物會賣出。迴歸問題


問題二: 你想讓計算機檢測使用者的賬戶是否被盜竊。分類問題