1. 程式人生 > 其它 >吳恩達-機器學習筆記-第一章

吳恩達-機器學習筆記-第一章

參考:機器學習

筆記:

1.2機器學習是什麼?

  1. 即使是在機器學習的專業人士中,也不存在一個被廣泛認可的定義來準確定義機器學習是什麼或不是什麼

  2. 有幾個定義,年代近一點的定義,由 Tom Mitchell 提出,來自卡內基梅隆大學,Tom 定義的機器學習是,一個好的學習問題定義如下,他說,一個程式被認為能從經驗 E 中學習,解決任務 T,達到效能度量值 P,當且僅當,有了經驗 E 後,經過 P 評判,程式在處理 T 時的效能有所提升。作者認為經驗 E 就是程式上萬次的自我練習的經驗而任務 T 就是下棋。效能度量值 P 呢,就是它在與一 些新的對手比賽時,贏得比賽的概率。
  3. 目前存在幾種不同型別的學習演算法,主要的兩種型別被我們稱之為監督學習和無監督學習。監督學習這個想法是指,我們將教計算機如何去完成任務, 而在無監督學習中,我們打算讓它自己進行學習。

1.3 監督學習

  1. 監督學習指的就是我們給學習演算法一個數據集。這個資料集由“正確答案”組成。監督學習包含兩類問題:迴歸問題和分類問題。
  2. 迴歸問題:在房價的例子中,給了一系列房子的資料,給定資料集中每個樣本的正確價格, 即它們實際的售價然後運用學習演算法,算出更多的正確答案。迴歸這個詞的意思:試著推測出一個連續值的結果
  3. 分類指的是,我們試著推測出離散的輸出值:0 或 1 良性或惡性,而事實上在分類問題 中,輸出可能不止兩個值。
  4. 在其它一些機器學習問題中,可能會遇到不止一種特徵。某些演算法不僅能處理 2 種 3 種或 5 種特徵,即使有無限多種特徵都可以處理。怎麼處理無限多個特徵,甚至怎麼儲存這些特徵都存在問題,你電腦的記憶體肯定不夠用。我們以後會講一個演算法,叫支援向量機,裡面有一個巧妙的數學技巧,能讓計算機處理無限多個特徵。(什麼技巧)
  5. 監督學習:其基本思想是,我們資料集中的每個樣本都有相應的“正確答案”。再根據這些樣本作出預測,就像房子和腫瘤的例子中做的那樣。 我們還介紹了迴歸問題,即通過迴歸來推出一個連續的輸出,之後我們介紹了分類問題,其 目標是推出一組離散的結果。

1.4 無監督學習

  1. 不同於監督學習的資料的樣子, 即無監督學習中沒有任何的標籤或者是有相同的標籤或者就是沒標籤。所以我們已知資料集,卻不知如何處理,也未告知每個資料點是什麼,別的都不知道,就是一個數據集。沒有提前告知演算法一些資訊,比如,這是第一類的人,那些是第二類的人,還有第三類,等等。你能從資料中找到某種結構嗎?針對資料集,無監督學習就能判斷出資料有兩個不同的聚集簇
    。 這是一個,那是另一個,二者不同。是的,無監督學習演算法可能會把這些資料分成兩個不同的簇。所以叫做聚類演算法。
  2. 新聞事件分類的例子,就是那個谷歌新聞的例子,我們在本視訊中有見到了,我們看到, 可以用一個聚類演算法來聚類這些文章到一起,所以是無監督學習。