1. 程式人生 > >一個月刷完機器學習筆試題300題(8)

一個月刷完機器學習筆試題300題(8)

第八天

1、對於下圖, 最好的主成分選擇是多少 ?

A
7
B
30
C
35
D
Can’t Say
正確答案是: B
主成分選擇使variance越大越好, 在這個前提下, 主成分越少越好。
2、資料科學家可能會同時使用多個演算法(模型)進行預測, 並且最後把這些演算法的結果整合起來進行最後的預測(整合學習),以下對整合學習說法正確的是
A
單個模型之間有高相關性
B
單個模型之間有低相關性
C
在整合學習中使用“平均權重”而不是“投票”會比較好
D
單個模型都是用的一個演算法
正確答案是: B ????
???bagging具有低相關性,而boosting是不是高相關性???

3、在有監督學習中, 我們如何使用聚類方法?

  1. 我們可以先建立聚類類別, 然後在每個類別上用監督學習分別進行學習
  2. 我們可以使用聚類“類別id”作為一個新的特徵項, 然後再用監督學習分別進行學習
  3. 在進行監督學習之前, 我們不能新建聚類類別
  4. 我們不可以使用聚類“類別id”作為一個新的特徵項, 然後再用監督學習分別進行學習
    A
    2 和 4
    B
    1 和 2
    C
    3 和 4
    D
    1 和 3
    正確答案是: B
    我們可以為每個聚類構建不同的模型, 提高預測準確率。
    “類別id”作為一個特徵項去訓練, 可以有效地總結了資料特徵。

4、以下說法正確的是

  1. 一個機器學習模型,如果有較高準確率,總是說明這個分類器是好的
  2. 如果增加模型複雜度, 那麼模型的測試錯誤率總是會降低
  3. 如果增加模型複雜度, 那麼模型的訓練錯誤率總是會降低
  4. 我們不可以使用聚類“類別id”作為一個新的特徵項, 然後再用監督學習分別進行學習
    A
    1
    B
    2
    C
    3
    D
    2和3
    E
    都錯
    正確答案是:E
    1的模型中, 如果負樣本佔比非常大,也會有很高的準確率, 對正樣本的分類不一定很好;
    4的模型中, “類別id”可以作為一個特徵項去訓練, 這樣會有效地總結了資料特徵。

5、對應GradientBoosting tree演算法, 以下說法正確的是:

  1. 當增加最小樣本分裂個數,我們可以抵制過擬合
  2. 當增加最小樣本分裂個數,會導致過擬合
  3. 當我們減少訓練單個學習器的樣本個數,我們可以降低variance
  4. 當我們減少訓練單個學習器的樣本個數,我們可以降低bias
    A
    2 和 4
    B
    2 和 3
    C
    1 和 3
    D
    1 和 4
    正確答案是:C
    最小樣本分裂個數是用來控制“過擬合”引數。太高的值會導致“欠擬合”,這個引數應該用交叉驗證來調節。
    第二點是靠bias和variance概念的。

6、以下哪個圖是KNN演算法的訓練邊界

A
B
B
A
C
D
D
C
E
都不是
正確答案是: B
KNN演算法肯定不是線性的邊界, 所以直的邊界就不用考慮了。另外這個演算法是看周圍最近的k個樣本的分類用以確定分類,所以邊界一定是坑坑窪窪的。

7、如果一個訓練好的模型在測試集上有100%的準確率, 這是不是意味著在一個新的資料集上,也會有同樣好的表現?
A
是的,這說明這個模型的範化能力已經足以支援新的資料集合了
B
不對,依然後其他因素模型沒有考慮到,比如噪音資料
正確答案是: B
沒有一個模型是可以總是適應新資料的。我們不可能可到100%準確率。
8、下面的交叉驗證方法
i. 有放回的Bootstrap方法
ii. 留一個測試樣本的交叉驗證
iii. 5折交叉驗證
iv. 重複兩次的5折教程驗證
當樣本是1000時,下面執行時間的順序,正確的是
A
i > ii > iii > iv
B
ii > iv > iii > i
C
iv > i > ii > iii
D
ii > iii > iv > i
正確答案是: B
Boostrap方法是傳統地隨機抽樣,驗證一次的驗證方法,只需要訓練1次模型,所以時間最少。
留一個測試樣本的交叉驗證,需要n次訓練過程(n是樣本個數),這裡,要訓練1000個模型。
5折交叉驗證需要訓練5個模型。
重複2次的5折交叉驗證,需要訓練10個模型。
所有B是正確的
9、變數選擇是用來選擇最好的判別器子集, 如果要考慮模型效率,我們應該做哪些變數選擇的考慮?

  1. 多個變數其實有相同的用處
  2. 變數對於模型的解釋有多大作用
  3. 特徵攜帶的資訊
  4. 交叉驗證
    A
    1 和 4
    B
    1, 2 和 3
    C
    1,3 和 4
    D
    以上所有
    正確答案是:C
    注意, 這題的題眼是考慮模型效率,所以不要考慮選項2.

10、對於線性迴歸模型,包括附加變數在內,以下的可能正確的是 :

  1. R-Squared 和 Adjusted R-squared都是遞增的
  2. R-Squared 是常量的,Adjusted R-squared是遞增的
  3. R-Squared 是遞減的, Adjusted R-squared 也是遞減的
  4. R-Squared 是遞減的, Adjusted R-squared是遞增的
    A
    1 和 2
    B
    1 和 3
    C
    2 和 4
    D
    以上都不是
    正確答案是:D
    R-squared不能決定係數估計和預測偏差,這就是為什麼我們要估計殘差圖。但是,R-squared有R-squared 和 predicted R-squared 所沒有的問題。
    每次你為模型加入預測器,R-squared遞增或不變.