003 機器學習中的基礎知識
有些知識還是記錄下來比較容易復習。
懂原理, 會使用平臺,使用語言實現常見算法。
1.大綱
機器學習的基本概念
機器學習的實質
機器學習方法的三要素
經驗風險與結構風險
常見損失函數
一:基本概念
1.機器學習的方法流程
用監督學習為例
首先,有一個輸入數據,然後根據這個輸入數據做一些特征的加工和整理,基於特征進行模型的訓練,去建模,然後做模型評估,得到一個可以接受的模型,然後對模型就行部署,使用模型對業務進行應用。
定期更新模型,對模型生命周期進行維護。
2.輸入空間與輸出空間
輸入空間(input space):將輸入的所有可能取值的集合稱作輸入空間
輸出空間(output space):將輸出的所有可能取值的集合作為輸出空間
輸入空間與輸出空間可以是有限元素的集合,也可以是歐式空間
輸出空間與輸出空間可以是連續值的集合,也可以是離散集合
輸入空間與輸出空間可以是同一個空間
通常,輸出空間比輸入空間小
3.特征空間
特征:每個輸入實例的各個部分稱為原始特征,基於特征還可以擴展出衍生特征
特征向量:多個特征組合的集合
特征空間:將特征向量存在的空間稱為特征空間
特征空間每一維都對應一個特性
特征空間可以與輸入空間相同,也可以不同
需要將實例從輸入空間映射到特征空間
模型實際上是定義特征空間之上的
4.輸入空間與特征空間
需要將實例從輸入空間映射到特征空間
模型實際上是定義特征空間之上的
5.假設空間
由輸入空間到輸出空間的映射的集合。
監督學習的目的在於學習一個由輸入到輸出的映射,這一映射由模型來表示。學習的目的就是找到最好的這樣的模型。
模型屬於輸入空間到輸出空間的映射集合,這個結合就是假設空間
舉例:
二:機器學習方法的三要素
1.三要素
方法=模型+策略+算法
模型:輸入空間到輸出空間的映射關系,學習過程就是從假設空間中搜索適合當前數據的假設
策略:從假設空間眾多 的假設中選擇最優模型的學習標準或者規則
算法:學習模型的具體計算方法,通常所以求解最優化問題
模型:確定學習範圍
策略:確定學習規則
算法:按照規則在範圍內學習
2.模型
分析當前需要解決的問題,確定模型。
3.策略
從假設空間眾多假設中選擇到最優的模型的學習標準或者規則
選擇時,需要解決以下的問題:
評估對單個樣本的效果
評估對訓練集的整體效果
評估對包括訓練集預測集在內的所有數據的整體效果
定義幾個指標來衡量:
損失函數:0-1損失函數
風險函數:經驗風險,期望風險,結構風險
策略:
經驗風險最小EMR
結構風險最小SRM
4.損失函數
用來衡量預測結果與真實結果之間的差距,值越小,越一致
通常是一個非負實值函數
通過各種方式縮小損失函數的過程被稱為優化,損失函數記做L(Y,f(x))
常見:
0-1損失函數:預測值與實際值相同是沒有損失為0,否是是完全損失,為1。過於嚴格,一般采用兩者的差小於某個閾值的方式。
絕對值損失函數:預測結果與真實結果差的絕對值,簡單易懂,但是計算不方便
平方損失函數:預測結果與真實結果差的平方。
優勢:
每個差值都是正的,累加不會被抵消
平方對於大誤差的懲罰大於小誤差
數據計算簡單,友好,導數為一次函數
對數損失函數:對數函數具有單調性,在求最優化問題時,結果與原始目標一致,可以將乘法轉化為加法,簡化計算
指數損失函數:單調性,非負性優良性質,使得越接近正確結果,誤差越小
折葉損失函數:也叫鉸鏈損失,對於判定邊界附近的點的懲罰力度較高,常見於SVM。
使用場景:
0-1:理想狀況模型
log:邏輯回歸,交叉熵
squared:線性回歸
exponential:AdaBoosting
Hinge:SVM,soft margin
5.經驗風險與風險函數
經驗風險:損失函數度量了單個樣本的預測結果,想要很亮整個訓練集的預測值與真實值的差異,將整個訓練集所有記錄均進行一次預測,求損失函數,將所有的值累加,即為經驗風險。
經驗風險越小,說明模型對訓練集的擬合度越好。
風險函數:又要期望損失,期望風險。所有的數據集的損失函數的期望。
經驗風險與期望風險:
期望風險是對全局的效果,經驗風險對局部的效果
期望風險往往無法計算,經驗風險可以計算
當訓練集足夠大時,經驗風險可以替代期望風險
6.經驗風險的的問題
在樣本比較小時,僅關註經驗風險,容易導致過擬合
7.結構風險
在經驗風險的基礎上,我們繼續解決。
在經驗風險的基礎上,增加一個正則化項(Regularizer)或者為懲罰項(Penalty Term)。
結構風險與經驗風險:
經驗風險越小,模型決策函數越復雜,包含的參數越多
當經驗風險函數小到一定程度就出現過擬合
防止過擬合的方式,就是降低決策函數的復雜度,讓懲罰項最小化
需要同時保證經驗風險函數與模型決策函數的復雜度都達到最小化
把兩個式子融合得到結構風險函數,然後對這個結構風險函數進行最小化
8.範數
3.
003 機器學習中的基礎知識