【機器學習】模型評估與選擇
阿新 • • 發佈:2019-02-13
內容大多來自
- 統計學習方法——李航
機器學習——周志華
1. 統計學習三要素
統計學習方法都是有模型、策略和演算法構成的,也就是統計學習方法由三要素構成,可以簡單地表示為:
構建一種統計學習方法就是確定具體的統計學習的三要素。
1.1 模型
統計學習首要考慮的問題是學習什麼樣的模型,在監督學習過程中,模型就是所要學習的條件概率分佈或是決策函式。模型的假設空間(hypothesis space)包含所有可能的條件概率分佈或決策函式。例如,假設決策函式是輸入變數的線性函式,那麼模型的假設空間就是所有這些線性函式構成的函式集合。假設空間中的模型一般由無窮多個。
假設空間用 表示。假設空間可以定義為決策函式的集合:
其中, 和 是定義在輸入空間 和輸出空間 上的變數。這是 通常是有一個引數向量決定的函式族:
引數向量 取值於 維歐式空間 ,稱為引數空間(parameter space)。
假設空間也可以定義為條件概率的集合:
其中, 和 是定義在輸入空間 和輸出空間 上的隨機變數。這時
引數向量 取值於 維歐式空間 ,稱為引數空間(parameter space)。
1.2 策略
有了模型的假設空間,統計徐誒需要考慮的是按照什麼樣的準則學習或選擇最優的模型。統計學習的目標在於從假設空間中選取最優模型。
首先引入損失函式與風險函式的概念。
- 損失函式:度量模型以此預測的好壞;
- 風險函式:度量平均一一下模型預測的好壞;
1.2.1 損失函式和風險函式
監督學習問題是在假設空間 中選取模型 作為決策函式,對於給定的輸入 ,由 給出相應的輸出 ,這個輸出的預測值 與真實值 可能一致也可能不一致,用一個損失函式 (loss function) 或 代價函式 (cost function) 來度量預測錯誤的程度。損失函式是 和 的 非負實值函式,記做 .\
統計學習中常用的損失函式有一下幾種
0-1 損失函式 (0-1 loss function)
平方損失函式 (quadratic loss function)
絕對損失函式 (absolute loss function)
對數損失函式 (logarithmic loss function)
損失函式值越小,模型也就越好,由於模型的輸入,輸出 是隨機變數,遵循聯合分佈 ,所以損失函式的期望是