初識機器學習
機器學習,就是讓計算機具有像人一樣的學習能力,是從堆積如山的數據(也就是大數據)中尋找出有用知識的數據挖掘技術。
1.1 學習的種類
根據所處理的數據類型種類,將學習分為:監督學習,無監督學習和強化學習等。為了更好的理解,我們用學生和老師的關系來進行概念說明:學生對應於計算機,老師對應於周圍的環境。
監督學習
指有求知欲的學生從老師那裏獲取知識和信息,老師提供對錯指示並告知最終答案的學習過程。監督學習的最終目標是:根據在學習過程中所獲得的經驗和技能,對沒有學習過的問題也可以做出正確的解答,並使計算機具有這種泛化的能力。
此類學習可以應用於手寫文字識別、聲音圖像處理、垃圾郵件的分類與攔截、網頁檢索和基因診斷等。其典型的任務有:預測數值型數據的回歸、預測分類標簽的分類、預測順序的排序等。
無監督學習
指在沒有老師的情況下,學生自學的過程,在機器學習中計算機在互聯網中自動收集信息,獲取有用的知識。無監督學習在人造衛星故障診斷、視頻分析、社交網站解析和聲音解析等方面有廣泛運用。典型的任務有:聚類、異常檢測等。
強化學習
指在沒有老師提示的情況下,自己對預測的結果進行評估的方法,通過這樣的自我評估,機器會為了更好更準確判斷而不斷的進行學習。強化學習在人的自動控制、計算機遊戲中的人工智能、市場戰略的最優化等方面具有廣泛的應用。典型的任務有:回歸、聚類和降維等。
1.2 機器學習任務
上一部分中我提到了一些典型的任務,那麽這些任務其實可以理解為機器學習的典型算法。
回歸:回歸方法是一種對數值型連續隨機變量
分類:分類方法是一種對離散型隨機變量建模或預測的監督學習算法,許多回歸算法都有與其相對應的分類算法,分類算法通常適用於預測一個類別(或類別的概率)而不是連續的數值。包括:Logistic回歸(正則化)、分類樹(集成方法)、深度學習、支持向量機、樸素貝葉斯等。
聚類:聚類是一種無監督學習任務,該算法基於數據的內部結構尋找觀察樣本的自然族群(即集群),因為聚類是一種無監督學習(即數據沒有標註),並且通常使用數據可視化評價結果。包括:K均值聚類、AP聚類、層次聚類、DBScan等。
以上三種典型的機器學習算法的解析及優缺點分析可以看知乎專欄:
https://zhuanlan.zhihu.com/p/27013861
異常檢測:指尋找輸入樣本中所包含的異常數據的問題。在無監督的異常檢測問題中,一般采用密度估計的方法,把靠近密度中心的數據作為正常數據,把偏離密度中心的數據作為異常數據。
降維:是指從高維度數據中提取關鍵信息,將其轉換為易於計算的低維度問題進而求解的方法。
先大概了解一下,算法詳解和實現慢慢做吧。又是新的一年,每天學點新的知識,你好啊,2018!
初識機器學習