統計學習方法筆記(一)統計學習方法簡介
阿新 • • 發佈:2019-02-12
統計學習概論:
一、統計學習
- 執行統計學習相關方法的前提:假設同類資料具有一定的統計規律性
- 定義:計算機基於資料構建相應的概率統計模型,利用模型對資料進行預測與分析
- 方法分類:監督學習、非監督學習、半監督學習、強化學習等
- 統計學習三要素:模型、策略、演算法
所謂模型,指的是尋找模型的假設空間,即模型所屬函式集;所謂策略,指的是模型選取的準則;所謂演算法指找到最優模型的方法,本人這樣理解,策略是尋找最優模型大的框架,即找到一大類比較好的子集,而演算法則是更為精細的操作,在子集中找到最優的模型 - 統計學習步驟:
(1). 得到一個有限的訓練資料集
(2). 確定包含所有可能模型的假設空間
(3). 確定模型選擇的準則,即策略
(4). 實現求解最優模型的演算法,即學習的演算法
(5). 通過學習方法選擇最優模型
(6). 利用學習的最優模型對新資料進行預測或分析
二、監督學習
- 任務:在學習好一個模型之後,給定一個輸入,能夠對輸出做一個比較好的預測
概念:
根據輸入輸出變數的不同型別,對預測任務給與不同的名稱,若輸入輸出均連續,則稱預測問題為迴歸問題;若只有輸出離散,則稱此類預測問題為分類問題;若輸入輸出均離散,則稱此類預測問題為標註問題。
1) 輸入空間、輸出空間:輸入空間是輸入所有可能取值的集合,輸出空間是輸出所有可能取值的集合,通常情況下,輸出空間遠遠小於輸入空間
2) 特徵向量:代表了輸入的例項,所有的特徵向量組成了特徵空間,特徵空間的每一維代表了一個特徵;特徵空間可能與輸入空間相同,也可能不同,模型實際上是定義在特徵空間中的
3) 聯合概率分佈:假設輸入變數與輸出變數遵循聯合概率分佈,即
4) 假設空間:輸入到輸出的對映(即模型)的集合,即函式的集合,這個模型可以是概率模型,也可以是非概率模型,由條件概率分佈 或者決策函式 來表示問題的形式化:監督學習分為學習跟預測兩個過程,由學習系統與預測系統兩個系統完成,如圖所示:
在學習過程中,學習系統通過學習得到一個模型,通常表現為條件概率分佈 或者決策函式 。在預測過程中,對於給定的測試樣本集中的輸入
統計學習三要素(對概念的進一步深化)
- 假設空間:用 來表示,假設空間可以定義為決策函式的集合 ,其中, 與 是輸入空間 和輸出空間上的變數 ,這時 是由一個引數向量決定的函式族: ,引數 取值於n維歐式空間 ,被稱為引數空間;也可以定義為條件概率的集合:
- 策略:尋找最優模型,需要找到衡量的標準,所以引入了損失函式和風險函式的的概念。其中,損失函式度量模型一次預測的好壞,風險函式度量平均意義下模型預測的好壞。
1)損失函式,是 和 的非負函式,記作 ,通常有以下幾種:
顧名思義,損失函式越小,代表模型越好。進一步定義風險函式,因為輸入輸出是隨機變數,所以可以求損失函式的期望,即: