機器學習筆試、面試題 三
阿新 • • 發佈:2018-12-14
1、假定你用一個線性SVM分類器求解二類分類問題,如下圖所示,這些用紅色圓圈起來的點表示支援向量,如果移除這些圈起來的資料,決策邊界(即分離超平面)是否會發生改變?
如果移除這些圈起來的資料,決策邊界(即分離超平面)是否會發生改變?
A Yes
B No
正確答案是: B
解析:
從資料的分佈來看,移除那三個資料,決策邊界不會受影響。
2、如果將資料中除圈起來的三個點以外的其他資料全部移除,那麼決策邊界是否會改變?
A 會
B 不會
正確答案是: B
解析:
決策邊界只會被支援向量影響,跟其他點無關。
3、關於SVM泛化誤差描述正確的是
A 超平面與支援向量之間距離
B SVM對未知資料的預測能力
C SVM的誤差閾值
正確答案是: B
解析:
統計學中的泛化誤差是指對模型對未知資料的預測能力
4、以下關於硬間隔hard margin描述正確的是
A SVM允許分類存在微小誤差
B SVM允許分類是有大量誤差
正確答案是:A
解析:
硬間隔意味著SVM在分類時很嚴格,在訓練集上表現儘可能好,有可能會造成過擬合。
5、訓練SVM的最小時間複雜度為O(n2),那麼一下哪種資料集不適合用SVM?
A 大資料集
B 小資料集
C 中等大小資料集
D 和資料集大小無關
正確答案是:A
解析:
有明確分類邊界的資料集最適合SVM
6、SVM的效率依賴於
A 核函式的選擇
B 核引數
C 軟間隔引數
D 以上所有
正確答案是:D
解析:
SVM的效率依賴於以上三個基本要求,它能夠提高效率,降低誤差和過擬合
7、支援向量是那些最接近決策平面的資料點
A 對
B 錯
正確答案是:A
解析:
支援向量就在間隔邊界上
8、SVM在下列那種情況下表現糟糕
A 線性可分資料
B 清洗過的資料
C 含噪聲資料與重疊資料點
正確答案是:C
解析:
當資料中含有噪聲資料與重疊的點時,要畫出乾淨利落且無誤分類的超平面很難
9、假定你使用了一個很大γ值的RBF核,這意味著:
A 模型將考慮使用遠離超平面的點建模
B 模型僅使用接近超平面的點來建模
C 模型不會被點到超平面的距離所影響
D 以上都不正確
正確答案是: B
解析:
SVM調參中的γ衡量距離超平面遠近的點的影響。 對於較小的γ,模型受到嚴格約束,會考慮訓練集中的所有點,而沒有真正獲取到資料的模式、對於較大的γ,模型能很好地學習到模型。
10、SVM中的代價引數表示:
A 交叉驗證的次數
B 使用的核
C 誤分類與模型複雜性之間的平衡
D 以上均不是
正確答案是:C
解析:
代價引數決定著SVM能夠在多大程度上適配訓練資料。 如果你想要一個平穩的決策平面,代價會比較低;如果你要將更多的資料正確分類,代價會比較高。可以簡單的理解為誤分類的代價。