Ng機器學習01
何為機器學習?
對於機器學習(Machine Learning)的定義大體上有兩種,第一種是美國人Arthur Samuel提出的,Arthur本人亦是人工智慧(AI)的先驅。其定義如下:機器學習是通過給予電腦在為做特定編寫程式的前提下具備學習得能力。這種定義是較為古老、非正式的定義。現代機器學習教父Tom Mitchell先生對於機器學習給出了第二種較為現代的定義:通過從相關的任務T下的經驗E中學習,其行為的表現用P來測量,計算機程式在不斷的學習下,它對於任務T下的表現通過P測量,P隨著經驗E不斷增長。
這裡提出對於機器學習的一般分類:無監督下的學習和有監督下的學習。
有監督學習
在有監督的學習模型下,我們給定的資料集是已知正確的輸出結果,在輸入和輸出之間關係。
一般有監督的學習問題可以劃分為:迴歸和分類問題。在迴歸問題中,我們試圖預測出連續輸出的結果,意味著我們根據輸入變數(關係)描繪出連續的函式。對於分類問題,我們試圖根據離散結果預測結果。總而言之,我們嘗試以離散的分類關係描繪輸入變數。
例一
給出實際市場上房屋的尺寸資料集,試圖預測這些房子的價格。價格作為尺寸的函式關係是連續的輸出,因此,這是一個迴歸問題。
我們也可以通過關心房價高於或低於給定要求價格而非推測其售出價格,進而將這一問題轉變為分類問題,這裡我們依照價格將其分為兩類。
例二
(1)迴歸問題:對給出的一個人的照片,我們以此照片為基礎預測該人的年齡。
(2)分類問題:已知意味病人體內後有腫瘤,我們試圖預測該腫瘤是良性或惡性。
無監督學習
無監督學習下,我們在對應該的輸出結果並不知道或知道很少下解決問題的方式。我們可以從並不必要知道變數作用下從資料中劃分結構。總之,在無監督下,沒有基於預測結果的反饋。
例
簇:收集了100萬的基因組,將這些基因組自動劃分為多個小組,分類依據按照不同基因變數中相同的成分,如位置,角色,壽命等。
非-簇:雞尾酒舞會演算法,使你在吵雜的環境下尋找結構(如:在雞尾酒舞會中將個人的交談聲和音樂聲做分離)。