機器學習練習題（二）

阿新 • • 發佈：2019-01-21

從牛客網找來得題目，解析是題目下的高贊答案。

1.下面有關分類演算法的準確率，召回率，F1 值的描述，錯誤的是？

a.準確率是檢索出相關文件數與檢索出的文件總數的比率，衡量的是檢索系統的查準率

b.召回率是指檢索出的相關文件數和文件庫中所有的相關文件數的比率，衡量的是檢索系統的查全率

c.正確率、召回率和 F 值取值都在0和1之間，數值越接近0，查準率或查全率就越高

d.為了解決準確率和召回率衝突問題，引入了F1分數

答案：C

解析：對於二類分類問題常用的評價指標是精準度（precision）與召回率（recall）。通常以關注的類為正類，其他類為負類，分類器在測試資料集上的預測或正確或不正確，4種情況出現的總數分別記作：

TP——將正類預測為正類數 FN——將正類預測為負類數 FP——將負類預測為正類數 TN——將負類預測為負類數由此：精準率定義為：P = TP / (TP + FP)
召回率定義為：R = TP / (TP + FN)
F1值定義為： F1 = 2 P R / (P + R)
精準率和召回率和F1取值都在0和1之間，精準率和召回率高，F1值也會高，不存在數值越接近0越高的說法，應該是數值越接近1越高。 2.以下哪些方法不可以直接來對文字分類？ a.Kmeans b.決策樹 c.支援向量機 d.KNN 答案：A 解析：Kmeans是聚類方法，典型的無監督學習方法。分類是監督學習方法，BCD都是常見的分類方法。

3.以下哪個是常見的時間序列演算法模型? a.RSI b.MACD c.ARMA d.KDJ 答案：C 解析：時間序列中常用預測技術一個時間序列是一組對於某一變數連續時間點或連續時段上的觀測值。 1. 移動平均法 (MA) 1.1. 簡單移動平均法 設有一時間序列y1,y2,..., 則按資料點的順序逐點推移求出N個數的平均數，即可得到一次移動平均數. 1.2 趨勢移動平均法 當時間序列沒有明顯的趨勢變動時，使用一次移動平均就能夠準確地反映實際情況，直接用第t週期的一次移動平均數就可預測第1t+週期之值。時間序列出現線性變動趨勢時，用一次移動平均數來預測就會出現滯後偏差。修正的方法是在一次移動平均的基礎上再做二次移動平均，利用移動平均滯後偏差的規律找出曲線的發展方向和發展趨勢，然後才建立直線趨勢的預測模型。故稱為趨勢移動平均法。

2. 自迴歸模型(AR) AR模型是一種線性預測，即已知N個數據，可由模型推出第N點前面或後面的資料（設推出P點）. 本質類似於插值，其目的都是為了增加有效資料，只是AR模型是由N點遞推，而插值是由兩點（或少數幾點）去推導多點，所以AR模型要比插值方法效果更好。 3. 自迴歸滑動平均模型(ARMA) 其建模思想可概括為：逐漸增加模型的階數，擬合較高階模型，直到再增加模型的階數而剩餘殘差方差不再顯著減小為止。 4. GARCH模型 迴歸模型。除去和普通迴歸模型相同的之處，GARCH對誤差的方差進行了進一步的建模。特別適用於波動性的分析和預測。 5. 指數平滑法 移動平均法的預測值實質上是以前觀測值的加權和，且對不同時期的資料給予相同的加權。這往往不符合實際情況。指數平滑法則對移動平均法進行了改進和發展，其應用較為廣泛。基本思想都是：預測值是以前觀測值的加權和，且對不同的資料給予不同的權，新資料給較大的權，舊資料給較小的權。根據平滑次數不同，指數平滑法分為：一次指數平滑法、二次指數平滑法和三次指數平滑法等。

4.SPSS的介面中，以下是主視窗是（）

答案：資料編輯視窗。

5.在Logistic Regression 中,如果同時加入L1和L2範數,會產生什麼效果()

a.可以做特徵選擇,並在一定程度上防止過擬合

b.能解決維度災難問題

c.能加快計算速度

d.可以獲得更準確的結果

答案：A

解析：此解析是我看特徵選擇的部落格看到的，是做特徵選擇看可以使用L1，L2範數，具體如下：
Ｌ１範數具有係數解的特性，但是要注意的是，Ｌ１沒有選到的特徵不代表不重要，原因是兩個高相關性的特徵可能只保留一個。如果需要確定哪個特徵重要，再通過交叉驗證。
為什麼L1，L2範數可以防止過擬合呢
在代價函式後面加上正則項，Ｌ１即是Ｌｏｓｓｏ迴歸，Ｌ２是嶺迴歸
但是它為什麼能防止過擬合呢？
奧卡姆剃刀原理：能很好的擬合數據且模型簡單
模型引數在更新時，正則項可使引數的絕對值趨於０，使得部分引數為０，降低了模型的複雜度（模型的複雜度由引數決定），從而防止了過擬合。提高模型的泛化能力。

6.一般，k-NN最近鄰方法在( )的情況下效果較好

a.樣本較多但典型性不好

b.樣本較少但典型性好

c.樣本呈團狀分佈

d.樣本呈鏈狀分佈

答案：B

解析：樣本呈團狀頗有迷惑性，這裡應該指的是整個樣本都是呈團狀分佈，這樣kNN就發揮不出其求近鄰的優勢了，整體樣本應該具有典型性好，樣本較少，比較適宜。

7.以下幾種模型方法屬於判別式模型的有（）

a.混合高斯

b.CRF

c.區分度訓練

d.隱馬爾科夫模型

答案：BC

解析：判別式模型與生成式模型的區別

產生式模型(Generative Model)與判別式模型(Discrimitive Model)是分類器常遇到的概念，它們的區別在於：

對於輸入x，類別標籤y：
產生式模型估計它們的聯合概率分佈P(x,y)
判別式模型估計條件概率分佈P(y|x)

產生式模型可以根據貝葉斯公式得到判別式模型，但反過來不行。

Andrew Ng在NIPS2001年有一篇專門比較判別模型和產生式模型的文章：
On Discrimitive vs. Generative classifiers: A comparision of logistic regression and naive Bayes

判別式模型常見的主要有：

Logistic Regression

SVM

Traditional Neural Networks

Nearest Neighbor

CRF

Linear Discriminant Analysis

Boosting

Linear Regression

產生式模型常見的主要有：

Gaussians

Naive Bayes

Mixtures of Multinomials

Mixtures of Gaussians

Mixtures of Experts

HMMs

Sigmoidal Belief Networks, Bayesian Networks

Markov Random Fields

Latent Dirichlet Allocation

8.下列不是SVM核函式的是：

a.多項式核函式

b.logistic核函式

c.徑向基核函式

d.Sigmoid核函式

答案：B

解析：SVM核函式包括線性核函式、多項式核函式、徑向基核函式、高斯核函式、冪指數核函式、拉普拉斯核函式、ANOVA核函式、二次有理核函式、多元二次核函式、逆多元二次核函式以及Sigmoid核函式。

9.已知一組資料的協方差矩陣P,下面關於主分量說法錯誤的是()

a.主分量分析的最佳準則是對一組資料進行按一組正交基分解, 在只取相同數量分量的條件下,以均方誤差計算截尾誤差最小

b.在經主分量分解後,協方差矩陣成為對角矩陣

c.主分量分析就是K-L變換

d.主分量是通過求協方差矩陣的特徵值得到

答案:C

解析:K-L變換與PCA變換是不同的概念，PCA的變換矩陣是協方差矩陣，K-L變換的變換矩陣可以有很多種（二階矩陣、協方差矩陣、總類內離散度矩陣等等）。當K-L變換矩陣為協方差矩陣時，等同於PCA。

10.機器學習中L1正則化和L2正則化的區別是？

a.使用L1可以得到稀疏的權值

b.使用L1可以得到平滑的權值

c.使用L2可以得到稀疏的權值

d.使用L2可以得到平滑的權值

答案：AD

解析：使用L1正則後的權值更新規則多了一項η * λ * sgn(w)/n，這一項當w為正時，更新後的w變小。當w為負時，更新後的w變大——因此它的效果就是讓w往0靠，使網路中的權重儘可能為0，也就相當於減小了網路複雜度，防止過擬合。所以說L1可以得到更稀疏的權值。

11.關於線性迴歸的描述,以下正確的有:

a.基本假設包括隨機干擾項是均值為0,方差為1的標準正態分佈

b.基本假設包括隨機干擾項是均值為0的同方差正態分佈

c.在違背基本假設時,普通最小二乘法估計量不再是最佳線性無偏估計量

d.在違背基本假設時,模型不再可以估計

e.可以用DW檢驗殘差是否存在序列相關性

f.多重共線性會使得引數估計值方差減小

答案：BCE

解析：一元線性迴歸的基本假設有
1、隨機誤差項是一個期望值或平均值為0的隨機變數；
2、對於解釋變數的所有觀測值，隨機誤差項有相同的方差；
3、隨機誤差項彼此不相關；
4、解釋變數是確定性變數，不是隨機變數，與隨機誤差項彼此之間相互獨立；
5、解釋變數之間不存在精確的（完全的）線性關係，即解釋變數的樣本觀測值矩陣是滿秩矩陣；
6、隨機誤差項服從正態分佈

違背基本假設的計量經濟學模型還是可以估計的，只是不能使用普通最小二乘法進行估計。
當存在異方差時，普通最小二乘法估計存在以下問題：引數估計值雖然是無偏的，但不是最小方差線性無偏估計。

杜賓-瓦特森（DW）檢驗，計量經濟，統計分析中常用的一種檢驗序列一階 自相關 最常用的方法。

所謂多重共線性（Multicollinearity）是指線性迴歸模型中的解釋變數之間由於存在精確相關關係或高度相關關係而使模型估計失真或難以估計準確。影響

（1）完全共線性下引數估計量不存在（2）近似共線性下OLS估計量非有效 多重共線性使引數估計值的方差增大，1/(1-r2)為方差膨脹因子(Variance Inflation Factor, VIF) （3）引數估計量經濟含義不合理（4）變數的顯著性檢驗失去意義，可能將重要的解釋變數排除在模型之外（5）模型的預測功能失效。變大的方差容易使區間預測的“區間”變大，使預測失去意義。 12.下列方法中，可以用於特徵降維的方法包括（） a.主成分分析PCA b.線性判別分析LDA c.深度學習SparseAutoEncoder d.矩陣奇異值分解SVD e.最小二乘法LeastSquares 答案：ABCD 13.以下()屬於線性分類器最佳準則? a.感知準則函式 b.貝葉斯分類 c.支援向量機 d.Fisher準則答案：ACD 解析：線性分類器有三大類：感知器準則函式、SVM、Fisher準則，而貝葉斯分類器不是線性分類器。感知器準則函式：代價函式J=-(W*X+w0)，分類的準則是最小化代價函式。感知器是神經網路（NN）的基礎，網上有很多介紹。 SVM：支援向量機也是很經典的演算法，優化目標是最大化間隔（margin），又稱最大間隔分類器，是一種典型的線性分類器。（使用核函式可解決非線性問題） Fisher準則：更廣泛的稱呼是線性判別分析（LDA），將所有樣本投影到一條遠點出發的直線，使得同類樣本距離儘可能小，不同類樣本距離儘可能大，具體為最大化“廣義瑞利商”。貝葉斯分類器：一種基於統計方法的分類器，要求先了解樣本的分佈特點（高斯、指數等），所以使用起來限制很多。在滿足一些特定條件下，其優化目標與線性分類器有相同結構（同方差高斯分佈等），其餘條件下不是線性分類。 14.在統計模式識分類問題中，當先驗概率未知時，可以使用()? a.最小損失準則 b.N-P判決 c.最小最大損失準則 d.最小誤判概率準則答案：BC 解析：在貝葉斯決策中，對於先驗概率p(y)，分為已知和未知兩種情況。 1. p(y)已知，直接使用貝葉斯公式求後驗概率即可； 2. p(y)未知，可以使用聶曼-皮爾遜決策(N-P決策)來計算決策面。而最大最小損失規則主要就是使用解決最小損失規則時先驗概率未知或難以計算的問題的。 15.以下描述錯誤的是： a.SVM是這樣一個分類器，他尋找具有最小邊緣的超平面，因此它也經常被稱為最小邊緣分類器（minimal margin classifier） b.在聚類分析當中，簇內的相似性越大，簇間的差別越大，聚類的效果就越差。 c.在決策樹中，隨著樹中結點數變得太大，即使模型的訓練誤差還在繼續減低，但是檢驗誤差開始增大，這是出現了模型擬合不足的問題。 d.聚類分析可以看作是一種非監督的分類。答案：ABC 解析：1、SVM的策略就是最大間隔分類器 2、簇內的相似性越大，簇間的差別越大，聚類的效果就越好。你想啊，分類或者聚類效果的好壞其實就看同一類中的樣本相似度，當然是越高越好，說明你分類越準確。 3、訓練誤差減少與測試誤差逐漸增大，是明顯的過擬合的特徵。 16.下列時間序列模型中,哪一個模型可以較好地擬合波動性的分析和預測？ a.AR模型 b.MA模型 c.ARMA模型 d.GARCH模型答案：D 解析：AR模型：自迴歸模型，是一種線性模型 MA模型：移動平均法模型，其中使用趨勢移動平均法建立直線趨勢的預測模型 ARMA模型：自迴歸滑動平均模型，擬合較高階模型 GARCH模型：廣義迴歸模型，對誤差的方差建模，適用於波動性的分析和預測

機器學習練習題（二）

判別式模型常見的主要有：

產生式模型常見的主要有：

機器學習練習題（二）

機器學習實戰（二）決策樹DT（Decision Tree、ID3演算法）

模式識別與機器學習筆記（二）機器學習的基礎理論

機器學習筆記（二）線性迴歸實現

機器學習實踐（二）—sklearn之資料集

機器學習筆記（二）：python 模組pandas

機器學習筆記（二）：線性模型

機器學習筆記（二）吳恩達課程視訊

python機器學習實戰（二）

機器學習練習（二）-機器學習的四大應用領域

機器學習基礎（二）——詞集模型（SOW）和詞袋模型（BOW）

機器學習筆記（二）

機器學習筆記（二）——分類器之優缺點分析

機器學習系列（二）——迴歸模型

Python 機器學習基礎（二）——Numpy 篇

機器學習演算法（二）——決策樹分類演算法及R語言實現方法

機器學習筆記（二）矩估計，極大似然估計

機器學習總結（二）：梯度消失和梯度爆炸

構建機器學習專案（二）- ML strategy(2)

機器學習筆記（二）L1，L2正則化

機器學習練習題（二）

判別式模型常見的主要有：

產生式模型常見的主要有：

相關推薦