1. 程式人生 > >統計學習方法 1-統計學習方法概論

統計學習方法 1-統計學習方法概論

統計學習

統計學習的特點

統計學習的主要特點是:
(1)統計學習以計算機及網路為平臺,是建立在計算機及網路之上的;
(2)統計學習以資料為研究物件,是資料驅動的學科;
(3)統計學習的目的是對資料進行預測與分析;
(4)統計學習以方法為中心,統計學習方法構建模型並應用模型進行預測與分析;
(5)統計學習是概率論、統計學、資訊理論、計算理論、最優化理論及電腦科學等多個領域的交叉學科,並且在發展中逐步形成獨自的理論體系與方法論。

統計學習的物件

統計學習的物件是資料(data)。它從資料出發,提取資料的特徵,抽象出資料的模型,發現數據中的知識,又回到對資料的分析與預測中去。

統計學習的目的

統計學習用於對資料進行預測與分析,特別是對未知新資料進行預測與分析。

統計學習的方法

統計學習的方法是基於資料構建統計模型從而對資料進行預測與分析。統計學習由監督學習(supervised learning)、非監督學習(unsupervised learning)、半監督學習(semi-supervised learning)和強化學習(reinforcement learning)等組成。

統計學習的研究

統計學習研究一般包括統計學習方法(statistical learning method)、統計學習理論(statistical learning theory)及統計學習應用(application of statistical learning)三個方面。

監督學習

基本概念

輸入空間、特徵空間與輸出空間

聯合概率分佈
監督學習假設輸入與輸出的隨機變數X和Y遵循聯合概率分佈P(X,Y)。

假設空間

問題的形式化

統計學習三要素

方法=模型+策略+演算法

模型

由決策函式表示的模型為非概率模型,由條件概率表示的模型為概率模型。

策略

損失函式和風險函式

理論上模型f(X)關於聯合分佈P(X,Y)的平均意義下的損失,稱為風險函式(risk function)或期望損失(expected loss)。

模型f(X)關於訓練資料集的平均損失稱為經驗風險(empirical risk)或經驗損失(empirical loss),記作Remp:

根據大數定律,當樣本容量N趨於無窮時,經驗風險Remp(f)趨於期望風險Rexp(f)。

經驗風險最小化與結構風險最小化

當模型是條件概率分佈, 損失函式是對數損失函式時, 經驗風險朵小化就等價於極大似然估計

結構風險最小化(structural risk minimization, SRM)是為了防止過擬合而提出來的策略結構風險最小化等價千正則化(regularization).

當模型是條件概率分佈、 損失函式是對數損失函式、模型複雜度由模型的先驗概率表示時, 結構風險最小化就等價於最大後驗概率估計.

演算法

演算法指學習模型的具體計算方法。
最優化演算法,數值計算方法

模型評估與模型選擇

訓練誤差與測試誤差

測試誤差是模型Y=f(X)關於測試資料集的平均損失:
測試誤差反映了學習方法對未知的測試資料集的預測能力,

過擬合與模型選擇

過擬合是指學習時選擇的模型所包含的引數過多, 以致於出現這一模型對已知資料預測得很好, 但對未知資料預
測得很差的現象可以說模型選擇旨在避免過擬合併提高模型的預測能力.

正則化與交叉驗證

正則化

交叉驗證

泛化能力

泛化誤差

理論上對模型泛化能力的評估

泛化誤差上界

生成模型和判別模型

典型的生成模型有:樸素貝葉斯法和隱馬爾可夫模型,

典型的判別模型包括: K近鄰法、 感知機、 決策樹、 邏輯斯諦迴歸模型、 最大墒模型、 支援向量機、 提升方法和條件隨機場等,

生成方法的特點:
生成方法可以還匝出聯合概率分佈P(X,Y), 而判別方法 則不能;生成方法的學習收斂速度更快, 即當樣本容最增加的時候, 學到的模型可以更快地收斂千真實模型;當存在隱變數時, 仍可以用生成方法學習, 此時判別方法就不能用

判別方法的特點: 判別方法直接學習的是條件概率P(Y|X)或決策函式f(X), 直接面對預測, 往往學習的準確率更高;由於直接學習P(Y|X)或f(X), 可以對資料進行各種程度上的抽象、定義特徵並使用特徵, 因此可以簡化學習問題。

分類問題

在監督學習中, 當輸出變數Y取有限個離散值時, 預測問題便成為分類問題. 這時, 輸入變數X可以是離散的, 也可以是連續 的

分類問題包括學習和分類兩個過程。

許多統計學習方法可以用於分類,包括k近鄰法、 感知機、 樸素貝葉斯法、 決策樹、 決策列表、邏輯斯諦迴歸模型、 支援向量機、 提升方法、 貝葉斯網路、 神經網路、Winnow等.

標記問題

標註(tagging)也是一個監督學習問題。標註問題的輸入是一個觀測序列,輸出是一個標記序列或狀態序列.標註問題的目標在於學習一個模型,使它能夠對觀測序列給出標記序列作為預測。

標註問題分為學習和標註兩個過程

標註常用的統計學習方法有· 隱馬爾可夫模型、 條件隨機場。

迴歸問題

迴歸用於預瀏輸入變數(自變數)和輸出變堡(因變數)之間的關係, 特別是當輸入變數的值發生變化時, 輸出變數的值隨之發生的變化.迴歸模型正是表示從輸入變數到輸出變數之間對映的函式.

迴歸問題分為學習和預測兩個過程。

迴歸問題按照輸入變數的個數,分為一元迴歸和多元迴歸;按照輸入變數和輸出變數之間關係的型別即模型的型別,分為線性迴歸和非線性迴歸.