【習題集二】核、支援向量機和學習理論
1. 核山峰迴歸 Kernel Ridge Regression
在我們以往的計算中,我們定義損失函式為,現在我們為了使引數儘量少,將損耗方程修改為(這一方程在第十一講《貝葉斯統計正則化》中也介紹過),顯然,我們要求λ大於0,這一方程成為山峰迴歸損耗方程 Ridge Regression Cost Function,試求:
(1)當使用上述形式的方程時,我們的θ的解
解:與解原方程的方式一樣,我們將計算損耗方程J對θ的導數,使導數為0的θ即使方程取得最小值的解,計算過程如下
我們將方程寫成矩陣的形式
將其對θ求導為
令導數為0,我們有
上式便是時損耗函式最小的θ的表示式,十分類似於我們之前介紹的Normal Equation
(2)假設我們需要將核模型應用到這一方程中,即將表示式改變為,其中方程Φ為對映函式。仿照我們之前推到核矩陣的方式,給出當給入一個新的輸入x_new時,不需精確計算φ(x_new)而可求得θ^Tφ(x_new)的方法。【小提示:注意有定理,同樣,我們也希望讀者可以自己證明這一定義】
解:令Φ表示經過對映函式φ()對映過的輸入,則由上一題的結論,我們可推出
由於,K即我們之前介紹的訓練集的核矩陣。因此當給定輸入x_new計算y_new時,我們可通過如下公式計算
p.s. 我們可通過下式計算給定的定理
2. L2正則 L2 Norm Soft Margin SVMs
在第八講中我們介紹了L1正則,下面我們給出L2正則的方程
(1)注意到我們在L2正則中省去了對ξi>0的約束,試證明這一省略的合理性,即證明這一約束存在於不存在的結果是一樣的。
解:假設存在一個解ξ<0,此時約束對ξ=0也成立,此時這一方程可以取的更小的值,因此ξ<0不可能得出最優解。
(2)求L2正則的拉格朗日方程
解:拉格朗日方程為
(3)分別對ω、b和ξ求導計算拉格朗日方程的最小值,其中ξ={ξ1,ξ2,...,ξm}
解:對ω求導得
令其值為0,得
同理,對b求導有
故有
對ξ求導有
因此可得
(4)求L2正則的對偶問題
解:對偶目標函式為
因此方程的對偶形式為
3. 使用高斯核的SVM模型 SVM with Gaussian Kernel
當我們使用高斯核K(x,z)=exp(-||x-z||^2/τ^2)構建SVM時,我們希望證明:只要在訓練集中沒有兩個相同的點,我們總可以找到一個τ使訓練誤差為0。
(1)回憶到我們課上曾講過支援向量機的邊界方程可寫為,假設訓練資料集{(x1,y1), (x2,y2) ... (xm,ym)}中所包含的點的最小距離為ε,即對於任意不同的i和j有||xj-xi||>ε。試求可使訓練集完美分類(訓練誤差為0)的引數集{α1,...,αm,b}以及高斯核模型的頻寬τ【小提示:可令所有αi=1,b=0。注意到此時只要|f(xi)-yi|<1即可得到正確的分類,此時只需求得使上述不等式成立的τ即可】
解:我們將α設為1,將b設為0,此時我們有
因此我們只需
化簡為
(2)假設我們使用上一問中求得的鬆弛變數τ,分類器的訓練誤差是否必然為0?請給出簡短的證明。
解:一定。只要存在解,SVM的訓練誤差必定為0。假設對一些點有,因此f(xi)和yi有相同的符號,只要我們選擇足夠大的αi,我們便有,因此是有解的。
(3)假設我們使用SMO演算法訓練帶有鬆弛變數的SVM模型,在上述條件下,使用我們之前求得的τ,並使用任意的C值,此時分類器訓練誤差是否一定為0?請給出簡短的證明。
解:不一定。引數C控制了可容忍誤差的權重,如果C取值很小,則鬆弛項對結果基本沒有影響,此時一個線性不可分的訓練集必定不會有解。而任意的C並不能確保有解。
4. 針對垃圾分類的樸素貝葉斯和SVM演算法對比
這一題需從網上獲取程式碼,不再贅述。
5. 一致收斂 Uniform Convergence
我們之前證明對於任意優先假設集H={h1,h2,...hk},如果我們選擇m個元素的訓練誤差最小的hi,並滿足錯誤的概率為1-δ時,有
其中ε(h)為泛化誤差。現在考慮一個例項,為了精確計算誤差上界,在我們的假設集中存在一些假設使訓練誤差為0,因此我們可以使不等式右側的第一項為0,但我們可以求得一個更低的上界。
(1)假設我們選擇了一個假設集中可使訓練誤差為0的假設h,則證明:在錯誤的概率為1-δ的條件下【小提示:考慮假設的泛化誤差大於γ的情況,不使用Hoeffding邊界,我們有下列不等式(1-γ)^m<=exp(-γm)】
解:假設 p('"h預測準確")<=1-γ
因此有 p('"h預測準確m次")<=(1-γ)^m<=exp(-γm)
使用聯合界定理,有
此時令k*exp(-γm)=δ,我們有,得證
(2)以取樣複雜邊界的形式重寫上一邊界,即以下形式:對於固定的δ和γ,對於ε(h)<=γ,保證概率大於等於1-δ,則滿足m>=f(k,γ,δ)
解:k*exp(-γm)=δ,我們求得
// 這裡是分界線~
// 順便給自己公眾號打打廣告,希望大家多多關注~
// 關注我的公眾號可以看到更多有意思的東西哦~