機器學習習題（1）

阿新 • • 發佈：2018-12-30

1. 前言

從這章開始，我們將進入機器學習實戰題目訓練，今天的成果是全軍覆沒！

2. 習題1（過擬合問題）

在其他條件不變的前提下，以下哪種做法容易引起機器學習中的過擬合問題（）

A. 增加訓練集量

B. 減少神經網路隱藏層節點數

C. 刪除稀疏的特徵

D. SVM演算法中使用高斯核/RBF核代替線性核

正確答案：D

解析：

一般情況下，越複雜的系統，過擬合的可能性就越高，一般模型相對簡單的話泛化能力會更好一點。

B.一般認為，增加隱層數可以降低網路誤差（也有文獻認為不一定能有效降低），提高精度，但也使網路複雜化，從而增加了網路的訓練時間和出現“過擬合”的傾向， svm高斯核函式比線性核函式模型更復雜，容易過擬合

D.徑向基(RBF)核函式/高斯核函式的說明,這個核函式可以將原始空間對映到無窮維空間。對於引數，如果選的很大，高次特徵上的權重實際上衰減得非常快，實際上（數值上近似一下）相當於一個低維的子空間；反過來，如果選得很小，則可以將任意的資料對映為線性可分——當然，這並不一定是好事，因為隨之而來的可能是非常嚴重的過擬合問題。不過，總的來說，通過調整引數，高斯核實際上具有相當高的靈活性，也是使用最廣泛的核函式之一。

3. 習題2（時序模型）

下列時間序列模型中,哪一個模型可以較好地擬合波動性的分析和預測

A.AR模型

B.MA模型

C.ARMA模型

D.GARCH模型

正確答案：D

解析：

AR模型是一種線性預測，即已知N個數據，可由模型推出第N點前面或後面的資料（設推出P點），所以其本質類似於插值。

MA模型(moving average model)滑動平均模型，其中使用趨勢移動平均法建立直線趨勢的預測模型。

ARMA模型(auto regressive moving average model)自迴歸滑動平均模型，模型參量法高解析度譜分析方法之一。這種方法是研究平穩隨機過程有理譜的典型方法。它比AR模型法與MA模型法有較精確的譜估計及較優良的譜解析度效能，但其引數估算比較繁瑣。

GARCH模型稱為廣義ARCH模型，是ARCH模型的拓展，由Bollerslev(1986)發展起來的。它是ARCH模型的推廣。GARCH(p,0)模型，相當於ARCH(p)模型。GARCH模型是一個專門針對金融資料所量體訂做的迴歸模型，除去和普通迴歸模型相同的之處，GARCH對誤差的方差進行了進一步的建模。特別適用於波動性的分析和預測，這樣的分析對投資者的決策能起到非常重要的指導性作用，其意義很多時候超過了對數值本身的分析和預測。

4. 習題3（線性分類器）

以下()屬於線性分類器最佳準則?

A.感知準則函式

B.貝葉斯分類

C.支援向量機

D.Fisher準則

正確答案：ACD

解析：
線性分類器有三大類：感知器準則函式、SVM、Fisher準則，而貝葉斯分類器不是線性分類器。

感知準則函式：準則函式以使錯分類樣本到分介面距離之和最小為原則。其優點是通過錯分類樣本提供的資訊對分類器函式進行修正，這種準則是人工神經元網路多層感知器的基礎。

支援向量機：基本思想是在兩類線性可分條件下，所設計的分類器介面使兩類之間的間隔為最大，它的基本出發點是使期望泛化風險儘可能小。（使用核函式可解決非線性問題）

Fisher 準則：更廣泛的稱呼是線性判別分析（LDA），將所有樣本投影到一條遠點出發的直線，使得同類樣本距離儘可能小，不同類樣本距離儘可能大，具體為最大化“廣義瑞利商”。

根據兩類樣本一般類內密集，類間分離的特點，尋找線性分類器最佳的法線向量方向，使兩類樣本在該方向上的投影滿足類內儘可能密集，類間儘可能分開。這種度量通過類內離散矩陣 Sw 和類間離散矩陣 Sb 實現。

5. 習題4（HK演算法）

基於二次準則函式的H-K演算法較之於感知器演算法的優點是()?

A.計算量小

B.可以判別問題是否線性可分

C.其解完全適用於非線性可分的情況

D.其解的適應性更好

正確答案：BD

解析：

HK演算法思想很樸實,就是在最小均方誤差準則下求得權向量.

他相對於感知器演算法的優點在於,他適用於線性可分和非線性可分得情況,對於線性可分的情況,給出最優權向量,對於非線性可分得情況,能夠判別出來,以退出迭代過程.

6.習題5（各種分類器特點）

以下說法中正確的是()

A.SVM對噪聲(如來自其他分佈的噪聲樣本)魯棒

B.在AdaBoost演算法中,所有被分錯的樣本的權重更新比例相同

C.Boosting和Bagging都是組合多個分類器投票的方法,二者都是根據單個分類器的正確率決定其權重

D.給定n個數據點,如果其中一半用於訓練,一般用於測試,則訓練誤差和測試誤差之間的差別會隨著n的增加而減少

正確答案：BD

解析：

A、SVM對噪聲（如來自其他分佈的噪聲樣本）魯棒

SVM本身對噪聲具有一定的魯棒性，但實驗證明，是當噪聲率低於一定水平的噪聲對SVM沒有太大影響，但隨著噪聲率的不斷增加，分類器的識別率會降低。

B、在AdaBoost演算法中所有被分錯的樣本的權重更新比例相同
AdaBoost演算法中不同的訓練集是通過調整每個樣本對應的權重來實現的。開始時，每個樣本對應的權重是相同的，即其中n為樣本個數，在此樣本分佈下訓練出一弱分類器。對於分類錯誤的樣本，加大其對應的權重；而對於分類正確的樣本，降低其權重，這樣分錯的樣本就被凸顯出來，從而得到一個新的樣本分佈。在新的樣本分佈下，再次對樣本進行訓練，得到弱分類器。以此類推，將所有的弱分類器重疊加起來，得到強分類器。

C、Boost和Bagging都是組合多個分類器投票的方法，二者均是根據單個分類器的正確率決定其權重。

Bagging與Boosting的區別：

取樣方式不同。

Bagging採用均勻取樣，而Boosting根據錯誤率取樣。
Bagging的各個預測函式沒有權重，而Boosting是有權重的。
Bagging的各個預測函式可以並行生成，而Boosing的各個預測函式只能順序生成。

7. 小結

通過這5道題目的練習，我們對於機器學習又有了更加深刻的認識，包括過擬合問題、時序模型、線性分類器、HK演算法、各種分類器特點等有了一定的認識。我們將會在接下來的日子裡再接再厲！

機器學習習題（1）

1. 前言

2. 習題1（過擬合問題）

3. 習題2（時序模型）

4. 習題3（線性分類器）

5. 習題4（HK演算法）

6.習題5（各種分類器特點）

7. 小結

機器學習習題（1）

機器學習儲備（1）：協方差和相關係數

機器學習習題（18）

機器學習入門（1）--KNN演算法

吳裕雄 python 機器學習-DMT（1）

機器學習入門（1）

AWS機器學習初探（1）：Comprehend

機器學習實戰（1）—— 機器學習基礎

機器學習習題（5）

機器學習習題（12）

機器學習演算法（1）——極大似然估計與EM演算法

機器學習之（1）——學習樸素貝葉斯-三種模型理論+python程式碼程式設計例項

機器學習筆記（1）簡介

機器學習筆記（1）監督學習和無監督學習

吳恩達《深度學習-結構化機器學習專案》1--機器學習策略（1）

機器學習習題（15）

Python機器學習入門（1）之導學+無監督學習

機器學習筆記（1）感知機演算法之實戰篇

【Java】「深入理解Java虛擬機器」學習筆記（1） - Java語言發展趨勢

jvm學習筆記（1）——java虛擬機器記憶體區域

機器學習習題（1）

1. 前言

2. 習題1（過擬合問題）

3. 習題2（時序模型）

4. 習題3（線性分類器）

5. 習題4（HK演算法）

6.習題5（各種分類器特點）

7. 小結

相關推薦