1. 程式人生 > >【機器學習理論】第1部分 機器學習基礎

【機器學習理論】第1部分 機器學習基礎

對於機器學習演算法也使用了一段時間,現在進行一個系統的學習和總結,也給自己補缺補差,回頭來看,發現對於機器學習的理解更加的清晰,更加有條理,在整體的思路上的把握也更加的完善,所以建議對於機器學習的學習一定要多實踐,多回頭檢視、

【分類介紹】

監督學習:在監督學習中,我們只需要給定輸入樣本集,機器就可以從中推測出指定目標變數的可能結果。

監督學習使用兩種型別的目標變數:標稱型和數值型。

標稱型:其目標變數的結果只在有限目標集中取值,如真與假、動物分類集合{爬行類、魚類、哺乳類}

數值型:其目標變數可以從無限的數值集合中取值,如1.002、42.001、100.58等

【機器學習的簡單概述】

利用計算機來彰顯資料背後的真實含義,這才是機器學習的真實含義。

機器學習的使用是非常廣泛的,在這個過程中可以包括:人臉識別、手寫數字識別、垃圾郵件過濾和亞馬遜公司的產品推薦等。

【何為機器學習】

機器學習就是把無序的資料轉換成有用的資訊。

如何能夠準確預測人類當前60%的行為?怎樣預測人們所參與時間的結果呢?如何預測在美國大選中總統競選的比例呢?

【機器學習的重要性】

二義性問題:“最大化利潤”、“最小化風險”、“最好的市場策略”……..

如何解釋資料、處理資料、從資料中抽取價值、展示和交流資料結果,這將是我們所討論的重要問題。

【關鍵術語】

以鳥類分類系統為例:

基於四種特徵的鳥物種分類表:

- 體重 翼展 腳蹼 後背顏色 種類
1 1000.1 125.0 棕色 紅尾鳥
2 3000.7 200.0 灰色 鷺鷹
3 3300.0 220.3 灰色 鷺鷹
4 4100.0 136.0 黑色 普通千鳥
5 3.0 11.0 綠色 瑰麗蜂鳥
6 570.0 75.0 黑色 象牙啄木鳥

從表中可以發現,所使用的是鳥類的四種特徵,前兩種特徵為數值型,第三種特徵為二值型,第四種特徵為自定義的列舉型別。

機器學習的首要任務就是分類,如何從資料中獲取相關的資料,並對資料進行一定的處理,來對資料進行分類,並將結果應用到資料的預測當中,這也就是機器學習的根本目的。

對於分類來說,首要的就是如何進行演算法的訓練,通常為演算法的輸入大量已分類資料作為演算法的訓練集,訓練集是用於訓練機器學習演算法的資料樣本集合。目標變數是機器學習演算法的預測結果,在分類演算法中目標變數的型別通常是離散型的,而在迴歸演算法中通常是連續型的。

【機器學習的主要任務】

機器學習的主要任務就是分類,將例項資料劃分到合適的分類中。

機器學習的另一項任務就是迴歸,用於預測數值型資料,通過資料擬合曲線來進行資料擬合,預測可能的結果。

分類和迴歸都屬於監督學習,監督學習就是必須首先要知道預測什麼,即目標變數的分類資訊。

非監督學習,則是在資料上並沒有類別資訊,也不會給定目標值;在非監督學習中,將資料集合分成由類似的物件組成的多個類的過程被稱為聚類,將尋找描述資料統計值的過程稱為密度估計。

用於執行分類、迴歸、聚類和密度估計的機器學習演算法

監督學習的用途
k近鄰演算法 線性迴歸
樸素貝葉斯演算法 區域性加權線性迴歸
支援向量機 Ridge迴歸
決策樹 Lasso最小回歸係數估計
無監督學習的用途
k-均值 最大期望演算法
DBSCAN Parzen窗設計

【演算法的選擇】

如果要預測目標變數的值,則可以選擇監督學習演算法,否則可以選擇非監督學習演算法。

對於監督學習演算法:如果目標變數是離散型,如是/否、1/2/3、A/B/C等相關的資料,可以使用分類演算法;

                               如果目標變數是連續型,如0.0~100.0、-999~999,則選擇迴歸演算法。

對於非監督學習演算法:如果需要將資料劃分為離散的組,則使用聚類演算法;

                                  如果還需要估計資料與每個分組的相似程度,則需要使用密度估計演算法。

【開發機器學習應用程式的步驟】

1、收集資料

2、準備輸入資料

3、分析輸入資料

4、訓練演算法

5、測試演算法

6、使用演算法