參數/非參數學習算法
阿新 • • 發佈:2018-06-02
參數數量 align 目標 匹配 模型 -a knn spa 加權
一、參數學習算法(parametric learning algorithm)
定義:假設可以最大程度地簡化學習過程,與此同時也限制可以學習到是什麽,這種算法簡化成一個已知的函數形式,即通過固定數目的參數來擬合數據的算法。
參數學習算法包括兩個步驟:
- 選擇一種目標函數的形式
- 從訓練數據中學習目標函數的系數
參數學習算法的一些常見例子包括:
- Logistic Regression
- LDA(線性判別分析)
- 感知機
- 樸素貝葉斯
- 簡單的神經網絡
? 參數機器學習算法的優點:
- 簡單:這些算法很容易理解和解釋結果
- 快速:參數模型可以很快從數據中學習
- 少量的數據
? 參數機器學習算法的局限性:
- 約束:這些算法選擇一種函數形式高度低限制模型本身
- 有限的復雜性:這種算法可能更適合簡單的問題
- 不適合:在實踐中,這些方法不太可能匹配潛在的目標(映射)函數
二、非參數學習算法(non-parametric learning algorithm)
定義:不對目標函數的形式作出強烈假設的算法稱為非參數機器學習算法,通過不做假設,它們可以從訓練數據中自由地學習任何函數形式,即參數數量會隨著訓練樣本數量的增長的算法。
非參數學習算法的一些常見例子包括:
- KNN
- 決策樹,比如CART和C4.5
- SVM
? 非參數機器學習算法的優點:
- 靈活性:擬合大量的不同函數形式
- 能力:關於潛在的函數不需要假設(或者若假設)
- 性能:可以得到用於預測的高性能模型
? 非參數機器學習算法的局限性:
- 更多的數據:需要更多的訓練數據用於估計目標函數
- 慢:訓練很慢,因為它們常常需要訓練更多的參數
- 過擬合:更多的過度擬合訓練數據風險,同時它更難解釋為什麽要做出的具體預測
註:
局部加權線性回歸其實是一個非參數學習算法(non-parametric learning algorithm);
線性回歸則是一個參數學習算法(parametric learning algorithm),因為它的參數是固定不變的,而局部加權線性回歸的參數是隨著預測點的不同而不同。
由於每次預測時都只看預測點附近的實例點,因此每一次預測都要重新運行一遍算法,得出一個組參數值,因此其計算代價很大。
參數/非參數學習算法