1. 程式人生 > >Week One - 3. Andrew Ng - 非監督學習

Week One - 3. Andrew Ng - 非監督學習

在前面的監督學習中,已獲取的資料集中包含正確答案,因此計算機可以通過學習來發現資料和正確答案之間的關係,進而進行預測。接下來,我們要計算機學習那些為賦予正確答案的資料。

這裡寫圖片描述

在上圖中,我們對於資料的類別一無所知,現在只有x1和x2兩個特徵,對於無監督演算法,我們能做的就是聚類。
這裡寫圖片描述

情景一:

谷歌新聞每天都會收集成千上萬的新聞,然後將他們聚合稱為不同的類別,形成新聞專題。

這裡寫圖片描述

情景二:

拿來一些不同的個體和他們的基因,檢測它們是否擁有某個特定的基因,這時可以執行聚類演算法,將類似的個體聚合起來,就能顯示出有多少種特定的基因存在。

這裡寫圖片描述

情景三:

管理大型計算機叢集,管理人員希望知道那些更適合於協作的機器,然後把這些機器放在一起,就能有效提高系統的執行效率和穩定性。

這裡寫圖片描述

情景四:

社交網路分析, 分析你的哪些朋友屬於最親密的朋友組,哪些僅僅是認識的朋友等等

這裡寫圖片描述

情景五:

市場分割,許多公司擁有龐大的客戶資訊資料庫,如果給你一個客戶資料集,你能否自動找出不同的市場分割,例如高消費群體,低消費群體等等

這裡寫圖片描述

情景六:

天文資料分析,通過聚類演算法發現星系如何誕生等等

這裡寫圖片描述

情景七

雞尾酒會上大家在同時相互交談,整個環境的聲音嘈雜,在這種情況下你可能會聽不清楚坐在你對面的人在講什麼,無監督演算法會設法從嘈雜的環境當中提取出你對面人說的內容。

這裡寫圖片描述

這個例子聽起來有些難度,實際上只需要一行程式碼就夠( Octave

這裡寫圖片描述

其中svd表示奇異值分解來求解線性方程。 實際上在矽谷,都是先用Octave做機器學習原型進行測試,然後再遷移到Java/Python這樣的平臺上去的。

總結

無監督學習:一種能夠從已知資料中發現結構資訊的學習方式

小測驗:

下面那些例子是非監督學習?
a. 在郵件已經分類的基礎上,訓練一個垃圾郵件分類器
b. 給一些文章進行聚合,是類似的出現在同一組中 √
c. 在消費者資料庫的基礎上,做市場細分 √
d. 在已知病人是否是糖尿病的基礎上,訓練一個糖尿病的分類器