機器學習原理及入門之R語言
1.機器學習語言--R語言
R是用於統計分析、繪圖的語言和操作環境。R是屬於GNU系統的一個自由、免費、原始碼開放的軟體,它是一個用於統計計算和統計製圖的優秀工具。具有面向物件的血統;機器學習為什麼需要R語言呢?因為這是統計學家的語言,我們需要藉助其中的方法來訓練機器;
2.R官網下載3.1.3
3.IDE開發環境使用Rstudio
4.重點--如何使用R資料結構來儲存和提取資料,如何將不同資料格式和來源的資料匯入R,理解視覺化複雜資料的常用方法;
5.資料結構:
1.向量:儲存一組有序的值(元素);元素沒有數量限制,但是必須同一型別,不能同時包括數字和文字;有固定的順序;可以被通過序號訪問;
2.因子:向量特列;character可以通過factor()方法轉化為因子;
3.列表:特殊型別的向量,有序,允許收集不同型別的值,用列表構建物件訪問;
4.陣列:
5.資料框:最重要的R資料結構,既有行又有列,提取向量資料就和提取列表中的一個元素一樣easy,
二維資料【rows,columns】;新引數 stringAsFactors = false;
6.矩陣:
6.資料管理
1.儲存和載入R資料結構;
2.用csv檔案匯入和儲存資料;
3.從sql資料框匯入資料;
7.線性迴歸
1. 使用R準備資料進行迴歸分析
2. 定義線性方程並估迴歸模型
8.理解迴歸
1.迴歸平均值
2.迴歸問題主要關注一個唯一的因變數和一個或者多個自變數之間的關係
3.廣義線性迴歸:邏輯迴歸和泊松迴歸
4.簡單線性迴歸問題 y = a+bx;
9.理解迴歸
10.相關係數
1.兩個變數之間的相關係數表示兩個變數服從一條直線的關係的緊密程度
2.相關係數就是指Pearson相關係數,相關係數的範圍是-1~1之間,兩端的值表示一個完美的線性關係
3.相關係數為0則表示不存線上性關係。
11.多元線性迴歸
現實情況有多個自變數,很有可能使用多元線性迴歸;
12.神經網路
神經網路借用人們理解人腦所應用的概念。儘管複雜但是模型可以很容易的運用到現實世界中去
13.理解神經網路
1.從生物神經元到人工神經元
啟用函式:將神經元的淨輸入訊號轉化為單一的輸出訊號,便於在網路中傳播
網路拓撲:描述了模型中的神經元的數量以及層數和他們連線的方式;
訓練演算法:指定如何設定連線權重,以便抑制或增加神經元在輸入訊號中的比重。