Stanford機器學習-Introduction
一、What is Machine Learning
自己剛剛考完研,看來看去不知道學什麼看什麼,刷微博看到現在發展正好的機器學習、深度學習等,於是鼓起信心和好奇心開始嘗試學習一下機器學習的相關入門知識。接著便開始找資料,這裡開始學習Stanford大學Andrew Ng老師的機器學習課程。
機器學習其實存在於我們生活的很多方面,比如現在移動裝置上相簿的自動分類功能等,
比如:
機器學習是研究計算機怎麼樣通過模擬人類的學習行為和活動模式,來獲取新的知識和能力,從而重新組織現有的知識結構使之效能不斷的優化。
下面是關於機器學習兩個相關的定義:
我們看一下Tom Mitchell給出的定義:他說一個程式被認為能從經驗 習E中學習i,來解決任務T,達到效能度量值P,當且僅當有了經驗E之後,經過P評判,程式在處理T的效能有所提升。
機器學習的分類如下:
主要分為有監督的學習和無監督的學習,此外還有例如加強學習、推介系統等相關的機器學習方面的概念。
二、Supervised Learning
所謂有監督的學習簡單的就是教給計算機如何學習、如何完成一些任務,而對應的無監督的學習就是讓計算機自己學習。
為了直觀,這裡用一個實際的例子來看:
座標圖的橫座標是房屋大小,縱座標是房屋的價格,圖中的點就是所蒐集的相關的資料,那麼如果現在我們要出售750平米的房子時,我們如何根據現有的資料來預測一個合適的價格,就是我們急需解決的問題。
也就是說我們如何直觀的畫一條線,可能是曲線,也可能是直線,來更好的擬合現有的資料。當我們畫一條直線時,得到的價格接近150,而當我們畫曲線時,發現擬合效果更好,這時預測價格接近200。因此如何選擇擬合的線,便是我們學習的一個任務。
那麼有監督的學習就是給我們的學習演算法一個有很多“正確結果”組成的資料集,通過學習來獲取更多的正確答案。術語講叫回歸問題:就是試著推測出一個連續的結果。
再看一個例子。它是通過腫瘤的大小來判斷腫瘤是良性的還是惡性的,
如圖所示,橫座標表示腫瘤的大小,縱座標表示是否為良性,1表示良性,0表示惡性。圖中給出了十個真實資料,並且說明了腫瘤的情況,那麼當我們有一個數據顯示大小是如箭頭所指時,我們就可以估算出是否是惡性的概率。當然我們也可以有不同那個的分類標準,用不同的數字表示不同的型別。
當影響因素多於一個時,我們也可以用另外一種方式描繪資料,如下所示:
這裡加了一個屬性:年齡,在這個二維圖中,當我們的資料既包括腫瘤大小也含患者的年齡時,我們也可以根據現有的資料判斷患病的概率,此外還可以包含細胞的形狀、大小等等的不同特徵的資料來豐富資料集,使得預測結果更加的接近真實情況。
因此我們可以知道,有監督的學習基本思想就是,我們的資料集中的每個樣本都有相應的“正確答案“,我們再根據這些樣本做出預測。此外還提到了迴歸問題,即通過迴歸推出一個連續的輸出。
三、Unsupervised Learning
下面我們來通過對比來看下無監督的學習,
上面是有監督學習的一個例子,在第一副圖中我們已經標出了是良性還是惡性,所以對於監督學習裡的每條資料,我們已經清楚的知道訓練集所對應的正確答案。
而下面的無監督的學習的例子的資料集中,僅有8個數據,他們沒有任何的標籤或者說是沒有相同的標籤,我們得到的就是一個數據集,沒有告知每個資料點是什麼,不知道如何處理,我們要做的就是從這些資料集中找出某種結構。而無監督的學習就可以將其分為兩類,這是一個,那是另一個,二者不同,這也叫做聚類。
此外比如在新聞行業、基因行業等,無監督學習也有廣泛的應用。