機器學習習題(1)
1. 前言
從這章開始,我們將進入機器學習實戰題目訓練,今天的成果是全軍覆沒!
2. 習題1(過擬合問題)
在其他條件不變的前提下,以下哪種做法容易引起機器學習中的過擬合問題()
A. 增加訓練集量
B. 減少神經網路隱藏層節點數
C. 刪除稀疏的特徵
D. SVM演算法中使用高斯核/RBF核代替線性核
正確答案:D
解析:
一般情況下,越複雜的系統,過擬合的可能性就越高,一般模型相對簡單的話泛化能力會更好一點。
B.一般認為,增加隱層數可以降低網路誤差(也有文獻認為不一定能有效降低),提高精度,但也使網路複雜化,從而增加了網路的訓練時間和出現“過擬合”的傾向, svm高斯核函式比線性核函式模型更復雜,容易過擬合
D.徑向基(RBF)核函式/高斯核函式的說明,這個核函式可以將原始空間對映到無窮維空間。對於引數 ,如果選的很大,高次特徵上的權重實際上衰減得非常快,實際上(數值上近似一下)相當於一個低維的子空間;反過來,如果選得很小,則可以將任意的資料對映為線性可分——當然,這並不一定是好事,因為隨之而來的可能是非常嚴重的過擬合問題。不過,總的來說,通過調整引數 ,高斯核實際上具有相當高的靈活性,也是 使用最廣泛的核函式 之一。
3. 習題2(時序模型)
下列時間序列模型中,哪一個模型可以較好地擬合波動性的分析和預測
A.AR模型
B.MA模型
C.ARMA模型
D.GARCH模型
正確答案:D
解析:
AR模型是一種線性預測,即已知N個數據,可由模型推出第N點前面或後面的資料(設推出P點),所以其本質類似於插值。
MA模型(moving average model)滑動平均模型,其中使用趨勢移動平均法建立直線趨勢的預測模型。
ARMA模型(auto regressive moving average model)自迴歸滑動平均模型,模型參量法高解析度譜分析方法之一。這種方法是研究平穩隨機過程有理譜的典型方法。它比AR模型法與MA模型法有較精確的譜估計及較優良的譜解析度效能,但其引數估算比較繁瑣。
GARCH模型稱為廣義ARCH模型,是ARCH模型的拓展,由Bollerslev(1986)發展起來的。它是ARCH模型的推廣。GARCH(p,0)模型,相當於ARCH(p)模型。GARCH模型是一個專門針對金融資料所量體訂做的迴歸模型,除去和普通迴歸模型相同的之處,GARCH對誤差的方差進行了進一步的建模。特別適用於波動性的分析和預測,這樣的分析對投資者的決策能起到非常重要的指導性作用,其意義很多時候超過了對數值本身的分析和預測。
4. 習題3(線性分類器)
以下()屬於線性分類器最佳準則?
A.感知準則函式
B.貝葉斯分類
C.支援向量機
D.Fisher準則
正確答案:ACD
解析:
線性分類器有三大類:感知器準則函式、SVM、Fisher準則,而貝葉斯分類器不是線性分類器。
感知準則函式 :準則函式以使錯分類樣本到分介面距離之和最小為原則。其優點是通過錯分類樣本提供的資訊對分類器函式進行修正,這種準則是人工神經元網路多層感知器的基礎。
支援向量機 :基本思想是在兩類線性可分條件下,所設計的分類器介面使兩類之間的間隔為最大,它的基本出發點是使期望泛化風險儘可能小。(使用核函式可解決非線性問題)
Fisher 準則 :更廣泛的稱呼是線性判別分析(LDA),將所有樣本投影到一條遠點出發的直線,使得同類樣本距離儘可能小,不同類樣本距離儘可能大,具體為最大化“廣義瑞利商”。
根據兩類樣本一般類內密集,類間分離的特點,尋找線性分類器最佳的法線向量方向,使兩類樣本在該方向上的投影滿足類內儘可能密集,類間儘可能分開。這種度量通過類內離散矩陣 Sw 和類間離散矩陣 Sb 實現。
5. 習題4(HK演算法)
基於二次準則函式的H-K演算法較之於感知器演算法的優點是()?
A.計算量小
B.可以判別問題是否線性可分
C.其解完全適用於非線性可分的情況
D.其解的適應性更好
正確答案:BD
解析:
HK演算法思想很樸實,就是在最小均方誤差準則下求得權向量.
他相對於感知器演算法的優點在於,他適用於線性可分和非線性可分得情況,對於線性可分的情況,給出最優權向量,對於非線性可分得情況,能夠判別出來,以退出迭代過程.
6.習題5(各種分類器特點)
以下說法中正確的是()
A.SVM對噪聲(如來自其他分佈的噪聲樣本)魯棒
B.在AdaBoost演算法中,所有被分錯的樣本的權重更新比例相同
C.Boosting和Bagging都是組合多個分類器投票的方法,二者都是根據單個分類器的正確率決定其權重
D.給定n個數據點,如果其中一半用於訓練,一般用於測試,則訓練誤差和測試誤差之間的差別會隨著n的增加而減少
正確答案:BD
解析:
A、SVM對噪聲(如來自其他分佈的噪聲樣本)魯棒
SVM本身對噪聲具有一定的魯棒性,但實驗證明,是當噪聲率低於一定水平的噪聲對SVM沒有太大影響,但隨著噪聲率的不斷增加,分類器的識別率會降低。
B、在AdaBoost演算法中所有被分錯的樣本的權重更新比例相同
AdaBoost演算法中不同的訓練集是通過調整每個樣本對應的權重來實現的。開始時,每個樣本對應的權重是相同的,即其中n為樣本個數,在此樣本分佈下訓練出一弱分類器。對於分類錯誤的樣本,加大其對應的權重;而對於分類正確的樣本,降低其權重,這樣分錯的樣本就被凸顯出來,從而得到一個新的樣本分佈。在新的樣本分佈下,再次對樣本進行訓練,得到弱分類器。以此類推,將所有的弱分類器重疊加起來,得到強分類器。
C、Boost和Bagging都是組合多個分類器投票的方法,二者均是根據單個分類器的正確率決定其權重。
Bagging與Boosting的區別:
取樣方式不同。
- Bagging採用均勻取樣,而Boosting根據錯誤率取樣。
- Bagging的各個預測函式沒有權重,而Boosting是有權重的。
- Bagging的各個預測函式可以並行生成,而Boosing的各個預測函式只能順序生成。
7. 小結
通過這5道題目的練習,我們對於機器學習又有了更加深刻的認識,包括過擬合問題、時序模型、線性分類器、HK演算法、各種分類器特點等有了一定的認識。我們將會在接下來的日子裡再接再厲!