統計學習方法筆記（一）統計學習方法簡介

阿新 • • 發佈：2019-02-12

統計學習概論：

一、統計學習

執行統計學習相關方法的前提：假設同類資料具有一定的統計規律性
定義：計算機基於資料構建相應的概率統計模型，利用模型對資料進行預測與分析
方法分類：監督學習、非監督學習、半監督學習、強化學習等
統計學習三要素：模型、策略、演算法
所謂模型，指的是尋找模型的假設空間，即模型所屬函式集；所謂策略，指的是模型選取的準則；所謂演算法指找到最優模型的方法，本人這樣理解，策略是尋找最優模型大的框架，即找到一大類比較好的子集，而演算法則是更為精細的操作，在子集中找到最優的模型
統計學習步驟：
(1). 得到一個有限的訓練資料集
(2). 確定包含所有可能模型的假設空間
(3). 確定模型選擇的準則，即策略
(4). 實現求解最優模型的演算法，即學習的演算法
(5). 通過學習方法選擇最優模型
(6). 利用學習的最優模型對新資料進行預測或分析

二、監督學習

任務：在學習好一個模型之後，給定一個輸入，能夠對輸出做一個比較好的預測
概念：
根據輸入輸出變數的不同型別，對預測任務給與不同的名稱，若輸入輸出均連續，則稱預測問題為迴歸問題；若只有輸出離散，則稱此類預測問題為分類問題；若輸入輸出均離散，則稱此類預測問題為標註問題。
1) 輸入空間、輸出空間：輸入空間是輸入所有可能取值的集合，輸出空間是輸出所有可能取值的集合，通常情況下，輸出空間遠遠小於輸入空間
2) 特徵向量：代表了輸入的例項，所有的特徵向量組成了特徵空間，特徵空間的每一維代表了一個特徵；特徵空間可能與輸入空間相同，也可能不同，模型實際上是定義在特徵空間中的
3) 聯合概率分佈：假設輸入變數與輸出變數遵循聯合概率分佈，即 $P (X, Y)$

，這是監督學習關於資料的基本假設，同時，訓練資料與測試資料都被看做是由聯合概率密度 $P (X, Y)$ 獨立同分布產生的。
4) 假設空間：輸入到輸出的對映（即模型）的集合，即函式的集合，這個模型可以是概率模型，也可以是非概率模型，由條件概率分佈 $P (Y | X)$ 或者決策函式 $Y = f (X)$ 來表示
問題的形式化：監督學習分為學習跟預測兩個過程，由學習系統與預測系統兩個系統完成，如圖所示：

在學習過程中，學習系統通過學習得到一個模型，通常表現為條件概率分佈 $\hat{P} (Y | X)$ 或者決策函式 $Y = \hat{f} (X)$ 。在預測過程中，對於給定的測試樣本集中的輸入 $x_{N + 1}$

，由模型得到 $y_{N + 1} = \arg max_{y_{N + 1}} \hat{P} (y_{N + 1} | x_{N + 1})$ 或者 $y_{N + 1} = \hat{f} (x_{N + 1})$

統計學習三要素（對概念的進一步深化）