統計學習方法概述
一,統計學習定義、研究物件與方法
二,監督學習
三,統計學習方法三要素
四,模型選擇
五,監督學習方法應用
一:
統計學習定義:關於計算機基礎資料構建概率統計模型並運用模型對資料進行預測與分析的一門學科,另稱為統計機器學習
統計學習的主要特點:
1,以計算機網路為平臺(建立在計算機及網路之上)
2,以資料為研究物件(資料驅動的學科)
3,對資料進行預測與分析
4,以方法為中心(構建模型並應用模型進行預測和分析)
5,是概率論、統計學、資訊理論、計算理論、最優化理論及電腦科學等多個領域的交叉學科(在發展中逐步形成獨自的理論體系和方法論)
統計學習的物件:資料(數字、文字、影象、視屏、音訊)。從資料出發,提取資料的特徵,抽象出資料的模型,發現數據中的知識,又回到對資料的分析與預測中去。
資料以變數或者變數組的形式顯示,分為連續變數和離散變數
統計學習目標:考慮學習什麼樣的模型和如何學習模型,以使模型能對資料進行準確的預測和分析,也儘可能考慮提高學習效率。
統計學習方法:
1,監督學習
2,非監督學習
3,半監督學習
4,強化學習
統計學習步驟:
1,得到一個有限的訓練資料集合
2,確定所有可能的模型的假設空間,即學習模型的集合
3,確定模型選擇的準則,即學習策略
4,實現求解最優模型的演算法,即學習的演算法
5,通過學習方法選擇最優模型
6,利用學習的最優模型對新資料進行預測或分析
統計學習應用場景:人工智慧、模式識別、資料探勘、自然語言處理、語音識別、影象識別、資訊檢索和生物資訊等~
二:
監督學習:學習一個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出一個好的預測
輸入變數與輸出變數均為連續變數的預測問題稱為迴歸問題;輸出變數為有限個離散變數的預測問題稱為分類問題;輸入變數與輸出變數均為變數序列的預測問題稱為標註問題。
三:
統計學習三要素:模型、策略、演算法(方法=模型+策略+演算法 )
模型:所要學習的條件概率分佈或決策函式
策略:按照什麼樣的準則學習或選擇最優的模型(損失函式、風險函式)
演算法:具體的計算方法
常用的幾種損失函式(損失函式值越小,模型越好):
1,0-1損失函式(0-1 loss function):
2,平方損失函式(quadratic loss function):
3,絕對損失函式(absolute loss function):
4,對數損失函式(logarithmic loss function)或對數似然損失函式(loglikelihood loss function):
風險函式(經驗風險、結構風險):
經驗風險最小的模型就是最優的模型。
結構風險最小化是為了過擬合而提出來的策略。結構風險最小化等價於正則化。
四:
當損失函式給定時,基於損失函式的模型的訓練誤差和模型的測試誤差就自然成為學習方法評估的標準。
當選擇的模型複雜度過大時,過擬合現象就會發生。
正則化:結構風險最小化策略的實現,是在經驗風險上加一個正則化項(regularizer)或罰項(penalty term)
交叉驗證:重複地使用資料,把給定的資料進行切分,將切分的資料集組合為訓練集與測試集,在此基礎上反覆地進行訓練、測試以及模型選擇。
泛化能力:由該方法學習到的模型對未知資料的預測能力,是學習方法本質上重要的性質。
生成模式與判別模型:
生成模型:由資料學習聯合概率分佈P(X|Y),然後求出條件概率分佈P(Y|X)作為預測的模型,即生成模型:(典型的生成模型:樸素貝葉斯和隱馬爾科夫模型)
判別模型:判別方法由資料直接學習決策函式f(x)或者條件概率分佈P(Y|X)作為預測的模型,判別方法關心的是對應的輸入X,應該預測怎樣的輸出Y。(典型的判別模型:k近鄰法、感知機、決策樹、邏輯斯丁迴歸模型、最大熵模型、支援向量機模型、提升方法、條件隨機場)
五:
分類問題:
分類問題常用的統計學習方法:k近鄰法、感知機、樸素貝葉斯法、決策樹、決策列表、邏輯斯丁迴歸模型、支援向量機模型、提升方法、貝葉斯網路、神經網路、winnow
標註問題:
標註問題常用的統計學習方法:隱馬爾科夫模型、條件隨機場
迴歸問題:
迴歸問題常用的損失函式:平方損失函式
最小二乘法