1. 程式人生 > >機器學習 -- 基本數學概念總結

機器學習 -- 基本數學概念總結

特徵向量 對於一個給定的線性變換A,它的特徵向量(eigenvector,也譯固有向量或本徵向量)v 經過這個線性變換[1]之後,得到的新向量仍然與原來的v 保持在同一條直線上,但其長度或方向也許會改變。即 Av=λv

特徵空間 特徵空間(eigenspace)是具有相同特徵值的特徵向量與一個同維數的零向量的集合。

假設空間 一組函式的集合,這組集合中的函式都能將輸入空間對映到輸出空間,但是對映的準確性卻大不相同。

分佈函式 非降性;有界性;右連續性。

分佈密度函式 是一個描述這個隨機變數的輸出值,在某個確定的取值點附近的可能性的函式。

累積分佈函式 隨機變數在某一區域內,密度函式的積分值。

損失函式 損失函式是指一種將一個事件(在一個樣本空間中的一個元素)對映到一個表達與其事件相關的經濟成本或機會成本的實數上的一種函式。

風險函式 損失函式的期望值。

經驗風險最小化 訓練資料的誤差。

殘差 實際觀察值與估計值(擬合值)之間的差

擬合 所謂擬合是指已知某函式的若干離散函式值{f1,f2,…,fn},通過調整該函式中若干待定係數f(λ1, λ2,…,λn),使得該函式與已知點集的差別(最小二乘意義)最小。

過擬合 為了得到一致假設而使假設變得過度複雜稱為過擬合。避免過擬合是分類器設計中的一個核心任務。通常採用增大資料量和測試樣本集的方法對分類器效能進行評價。

正則化 正則化就是對最小化經驗誤差函式上加約束,這樣的約束可以解釋為先驗知識(正則化引數等價於對引數引入先驗分佈)。 目的:避免出現過擬合。

結構風險最小化 經驗風險最小化 + 正則化項 = 結構風險最小化

奧卡姆剃刀原理 正則化就是對最小化經驗誤差函式上加約束,這樣的約束可以解釋為先驗知識(正則化引數等價於對引數引入先驗分佈)。

極大似然估計 對概率模型中引數進行估計的一種方法。

最大後驗估計 規則化的最大似然估計。

先驗概率,後驗概率 得到經驗前的概率;得到經驗後的概率。

交叉驗證 -簡單交叉驗證 隨機從樣本選出驗證資料,其餘作為訓練資料。 -K折交叉驗證 1個子樣本作為驗證資料,其餘用來訓練。 -留一驗證 每個樣本輪流當做驗證資料,其餘作為訓練。

Hoeffding不等式 集中不等式的一種,用於描述某變數是否集中在某個取值附近。 對於兩兩獨立的隨機變數X1,X2...Xn,若P(Xi∈[ai,bi]) = 1,則平均期望x = (x1+x2...xn)/n滿足: 1.png

訓練誤差 訓練資料集的平均損失。

測試誤差 測試資料集的平均損失。

指示函式 指示函式是定義在某集合X上的函式,表示其中有哪些元素屬於某一子集A。

幾種代價函式 SAD(Sum of Absolute Difference)=SAE(Sum of Absolute Error)即絕對誤差和 SATD(Sum of Absolute Transformed Difference)即hadamard變換後再絕對值求和 SSD(Sum of Squared Difference)=SSE(Sum of Squared Error)即差值的平方和 MAD(Mean Absolute Difference)=MAE(Mean Absolute Error)即平均絕對差值 MSD(Mean Squared Difference)=MSE(Mean Squared Error)即平均平方誤差

歐式空間 又叫實內積空間。根本性質是它的平面性,球面就是非歐空間。在歐幾里得空間內,向量操作主要有兩種,平移和旋轉。

希爾伯特空間 完備的內積空間。元素為函式,歐幾里得空間可以理解為希爾伯特空間的特殊情形。

拉格朗日函式,拉格朗日乘子 將一個有n 個變數與k 個約束條件的最優化問題轉換為一個有n + k個變數的方程組的極值問題,其變數不受任何約束。對每個變數求偏倒數,聯立求極值。其中lambda為拉格朗日乘子。

範數 範數,是具有“長度”概念的函式。線上性代數、泛函分析及相關的數學領域,範函是一個函式,其為向量空間內的所有向量賦予非零的正長度或大小。半範數反而可以為非零的向量賦予零長度。 舉一個簡單的例子,在二維的歐氏幾何空間 R就可定義歐氏範數。在這個向量空間中的元素常常在笛卡兒座標系統中被畫成一個從原點出發的帶有箭頭的有向線段。每一個向量的歐氏範數就是有向線段的長度。

內積 向量到數的對映。

熵 簡單來說,熵是表示物質系統狀態的一種度量,用它老表徵系統的無序程度。熵越大,系統越無序,意味著系統結構和運動的不確定和無規則;反之,,熵越小,系統越有序,意味著具有確定和有規則的運動狀態。

條件熵 條件熵描述了在已知第二個隨機變數 X 的值的前提下,隨機變數 Y 的資訊熵還有多少。

最大熵 保留全部的不確定性,將風險降到最小。

核函式 核函式將m維高維空間的內積運算轉化為n維低維輸入空間的核函式計算,從而巧妙地解決了在高維特徵空間中計算的“維數災難”等問題,從而為在高維特徵空間解決複雜的分類或迴歸問題奠定了理論基礎。 就是接受兩個低維空間裡的向量,能夠計算出經過某個變換後在高維空間裡的向量內積值。

傅立葉變換 連續傅立葉變換是一個特殊的把一組函式對映為另一組函式的線性運算元。 

勒貝格積分,黎曼積分 黎曼積分是相當於把山分為每塊都是一平方米大的方塊,測量每個方塊正中的山的高度。每個方塊的體積約為1x1x高度,因此山的總體積為所有高度的和。

勒貝格積分則是為山畫一張等高線圖,每根等高線之間的高度差為一米。每根等高線內含有的岩石土壤的體積約等於該等高線圈起來的面積乘以其厚度。因此總體積等於所有等高線內面積的和。

泛化能力 機器學習演算法對新鮮樣本的適應能力。 對具有同一規律的學習集以外的資料,經過訓練的網路也能給出合適的輸出,該能力稱為泛化能力。

樸素貝葉斯 假設條件獨立+貝葉斯定理。貝葉斯定理:P (A|B)=P(B|A)*P(A)/P(B) 。

貝葉斯網路 圖+貝葉斯定理。

貝葉斯估計 給定訓練資料D時,確定假設空間H中的最佳假設

馬爾科夫過程 條件概率僅僅與當前狀態有關,與過去和未來都是獨立的。

條件隨機場 判別式概率無向圖學習模型,是一種用於標註和切分有序資料的條件概率模型.

隱馬爾可夫模型 用來描述一個含有隱含未知引數的馬爾可夫過程

最小二乘法 通過最小化誤差的平方和尋找資料的最佳函式匹配。 一般結合偏導數求得直線方程的最優解。

伯努利模型 樸素貝葉斯常用模型的一種(還有高斯模型和多項式模型)。在伯努利模型中,每個特徵的取值是布林型的,即true和false。

分類器 - 準確率 抽查正確的數量/被抽查的數量 - 召回率 抽查正確的數量/總數量

學習率 決定梯度下降快慢的引數。

Gram (格拉姆) 矩陣 G(x1....x2) = | (x1|x1), (x1|x2) .. (x1|xn)      | (x2|x1), (x2|x2) .. (x2|xn)      | ...      | (xn|x1), (xn|x2) .. (xn|xn)

凸殼 設集合S是n維空間的k個點組成的集合,即S={x1,x2,...xk},xi是n維向量。定義S的凸殼Conv(S)為: Conv(S)={x=λ1*x1+λ2*x2+...+λk*xk | λ1+λ2+ . . .+λk=1}

LP距離,歐氏距離,Minkowski距離,曼哈頓距離 LP距離:在由p次可積函式組成的空間中兩點的距離。 歐氏距離:距離就是兩點之間的直線距離(以下簡稱歐氏距離)。歐氏距離中各特徵引數是等權的。 閩科夫斯基距離: 兩點在4維(閩科夫斯基的3+1空間)空間下的距離。 曼哈頓距離: 兩點在東西和南北方向的距離差的總和。 即d(i,j)=|xi-xj|+|yi-yj|

拉普拉斯平滑 就是假設每個觀察值都已經出現過一次。

資訊增益 等同於熵。即某變數變化的可能性的多少。

基尼指數 收入平均分配程度的指數。

邏輯斯蒂函式 引數概率值的單調關係為S形狀的函式曲線。

對偶問題 每一個線性規劃問題(稱為原始問題)都有一個與它對應的對偶線性規劃問題。

Jensen不等式 描述了積分的凸函式值和凸函式的積分值間的關係。 對於凸函式 f(x),x1,x2...,xn是函式f(x)在區間(a,b)內任意n個點: f([x1+x2+...+xn]/n) >= [f(x1)+f(x2)+...+f(xn)]/n 對於凹函式, f([x1+x2+...+xn]/n) <= [f(x1)+f(x2)+...+f(xn)]/n

函式間隔與幾何間隔 對於樣本點 (xi, yi)和超平面(w,b)的函式間隔為 :Yi = yi(w*xi + b), 幾何間隔為: Yi = yi(w*xi/||w|| + b/||w||),即點到超平面的距離。

硬間隔和軟間隔 硬間隔:要求所有樣本點都滿足和分類平面間的距離必須大於某個值。 軟間隔:目標函式+鬆弛變數+懲罰函式

仿射函式 仿射函式即由1階多項式構成的函式,一般形式為 f (x) = A x + b,這裡,A 是一個 m×k 矩陣,x 是一個 k 向量,b是一個m向量,實際上反映了一種從 k 維到 m 維的空間對映關係。

合頁損失函式 凸二次規劃中,每一項的經驗損失函式。

代理損失函式 用一個高階可微的損失函式去接近決策的損失函式。

KKT條件 對於由不等式約束,等式約束和目標函式構成的式子: L(a, b, x)= f(x) + a*g(x)+b*h(x)

最優值必須滿足以下條件:

1. L(a, b, x)對x求導為零;

2. h(x) =0;

3. a*g(x) = 0;

強可學習,弱可學習 強可學習,存在一個多項式演算法可以學習,並且準確率很高 。 弱可學習,存在一個多項式演算法可以學習,但準確率略高於隨機猜測。 原文:https://blog.csdn.net/lan_liang/article/details/51098421?utm_source=copy