一個月刷完機器學習筆試題300題(7)
第七天
1、使用k=1的knn演算法, 下圖二類分類問題, “+” 和 “o” 分別代表兩個類, 那麼, 用僅拿出一個測試樣本的交叉驗證方法, 交叉驗證的錯誤率是多少:
A
0%
B
100%
C
0%到100
D
以上都不是
正確答案是: B
knn演算法就是, 在樣本週圍看k個樣本, 其中大多數樣本的分類是A類, 我們就把這個樣本分成A類. 顯然, k=1 的knn在上圖不是一個好選擇, 分類的錯誤率始終是100%。
2、我們想在大資料集上訓練決策樹, 為了使用較少時間, 我們可以
A
增加樹的深度
B
增加學習率 (learning rate)
C
減少樹的深度
D
減少樹的數量
正確答案是:C
增加樹的深度, 會導致所有節點不斷分裂, 直到葉子節點是純的為止. 所以, 增加深度, 會延長訓練時間.
決策樹沒有學習率引數可以調. (不像整合學習和其它有步長的學習方法)
決策樹只有一棵樹, 不是隨機森林。
3、假如我們使用非線性可分的SVM目標函式作為最優化物件, 我們怎麼保證模型線性可分?
A
設C=1
B
設C=0
C
設C=無窮大
D
以上都不對
正確答案是:C
C無窮大保證了所有的線性不可分都是可以忍受的.
4、以下哪些演算法, 可以用神經網路去構造:
- KNN
- 線性迴歸
- 對數機率迴歸
A 1和 2
B 2 和 3
C 1, 2 和 3
D 以上都不是
正確答案是: B
- KNN演算法不需要訓練引數, 而所有神經網路都需要訓練引數, 因此神經網路幫不上忙
- 最簡單的神經網路, 感知器, 其實就是線性迴歸的訓練
- 我們可以用一層的神經網路構造對數機率迴歸
5、請選擇下面可以應用隱馬爾科夫(HMM)模型的選項
A
基因序列資料集
B
電影瀏覽資料集
C
股票市場資料集
D
所有以上
正確答案是:D
只要是和時間序列問題有關的 , 都可以試試HMM
6、我們建立一個5000個特徵, 100萬資料的機器學習模型. 我們怎麼有效地應對這樣的大資料訓練 :
A
我們隨機抽取一些樣本, 在這些少量樣本之上訓練
B
我們可以試用線上機器學習演算法
C
我們應用PCA演算法降維, 減少特徵數
D
B 和 C
E
A 和 B
F
以上所有
正確答案是:F
樣本數過多, 或者特徵數過多, 而不能單機完成訓練, 可以用小批量樣本訓練, 或者線上累計式訓練, 或者主成分PCA降維方式減少特徵數量再進行訓練.
7、我們想要減少資料集中的特徵數, 即降維. 選擇以下適合的方案 :
- 使用前向特徵選擇方法
- 使用後向特徵排除方法
- 我們先把所有特徵都使用, 去訓練一個模型, 得到測試集上的表現. 然後我們去掉一個特徵, 再去訓練, 用交叉驗證看看測試集上的表現. 如果表現比原來還要好, 我們可以去除這個特徵.
- 檢視相關性表, 去除相關性最高的一些特徵
A
1 和 2
B
2, 3和4
C
1, 2和4
D
All
正確答案是:D
1.前向特徵選擇方法和後向特徵排除方法是我們特徵選擇的常用方法
2.如果前向特徵選擇方法和後向特徵排除方法在大資料上不適用, 可以用這裡第三種方法.
3.用相關性的度量去刪除多餘特徵, 也是一個好方法
8、對於隨機森林和GradientBoosting Trees, 下面說法正確的是:
1 在隨機森林的單個樹中, 樹和樹之間是有依賴的, 而GradientBoosting Trees中的單個樹之間是沒有依賴的
2 這兩個模型都使用隨機特徵子集, 來生成許多單個的樹
3 我們可以並行地生成GradientBoosting Trees單個樹, 因為它們之間是沒有依賴的
4 GradientBoosting Trees訓練模型的表現總是比隨機森林好
A
2
B
1 and 2
C
1, 3 and 4
D
2 and 4
正確答案是:A
1 隨機森林是基於bagging的, 在隨機森林的單個樹中, 樹和樹之間是沒有依賴的。
2 Gradient Boosting trees是基於boosting的,且GradientBoosting Trees中的單個樹之間是有依賴關係。
3 這兩個模型都使用隨機特徵子集, 來生成許多單個的樹。
所以題幹中只有第二點是正確的,選A。
9、對於PCA(主成分分析)轉化過的特徵 , 樸素貝葉斯的”不依賴假設”總是成立, 因為所有主要成分是正交的, 這個說法是 :
A
正確的
B
錯誤的
正確答案是: B
這個說法是錯誤的, 首先, “不依賴”和”不相關”是兩回事, 其次, 轉化過的特徵, 也可能是相關的
10、對於PCA說法正確的是 :
- 我們必須在使用PCA前規範化資料
- 我們應該選擇使得模型有最大variance的主成分
- 我們應該選擇使得模型有最小variance的主成分
- 我們可以使用PCA在低維度上做資料視覺化
A
1, 2 and 4
B
2 and 4
C
3 and 4
D
1 and 3
E
1, 3 and 4
正確答案是:A
1)PCA對資料尺度很敏感, 打個比方, 如果單位是從km變為cm, 這樣的資料尺度對PCA最後的結果可能很有影響(從不怎麼重要的成分變為很重要的成分).
2)我們總是應該選擇使得模型有最大variance的主成分
3)有時在低維度上左圖是需要PCA的降維幫助的