1. 程式人生 > >機器學習筆試、面試題 三

機器學習筆試、面試題 三

1、假定你用一個線性SVM分類器求解二類分類問題,如下圖所示,這些用紅色圓圈起來的點表示支援向量,如果移除這些圈起來的資料,決策邊界(即分離超平面)是否會發生改變?

如果移除這些圈起來的資料,決策邊界(即分離超平面)是否會發生改變?

A Yes

B No

正確答案是: B

解析:

從資料的分佈來看,移除那三個資料,決策邊界不會受影響。
2、如果將資料中除圈起來的三個點以外的其他資料全部移除,那麼決策邊界是否會改變?

A 會

B 不會

正確答案是: B

解析:

決策邊界只會被支援向量影響,跟其他點無關。
3、關於SVM泛化誤差描述正確的是

A 超平面與支援向量之間距離

B SVM對未知資料的預測能力

C SVM的誤差閾值

正確答案是: B

解析:

統計學中的泛化誤差是指對模型對未知資料的預測能力
4、以下關於硬間隔hard margin描述正確的是

A SVM允許分類存在微小誤差

B SVM允許分類是有大量誤差

正確答案是:A

解析:

硬間隔意味著SVM在分類時很嚴格,在訓練集上表現儘可能好,有可能會造成過擬合。
5、訓練SVM的最小時間複雜度為O(n2),那麼一下哪種資料集不適合用SVM?

A 大資料集

B 小資料集

C 中等大小資料集

D 和資料集大小無關

正確答案是:A

解析:

有明確分類邊界的資料集最適合SVM
6、SVM的效率依賴於

A 核函式的選擇

B 核引數

C 軟間隔引數

D 以上所有

正確答案是:D

解析:

SVM的效率依賴於以上三個基本要求,它能夠提高效率,降低誤差和過擬合
7、支援向量是那些最接近決策平面的資料點

A 對

B 錯

正確答案是:A

解析:

支援向量就在間隔邊界上
8、SVM在下列那種情況下表現糟糕

A 線性可分資料

B 清洗過的資料

C 含噪聲資料與重疊資料點

正確答案是:C

解析:

當資料中含有噪聲資料與重疊的點時,要畫出乾淨利落且無誤分類的超平面很難
9、假定你使用了一個很大γ值的RBF核,這意味著:

A 模型將考慮使用遠離超平面的點建模

B 模型僅使用接近超平面的點來建模

C 模型不會被點到超平面的距離所影響

D 以上都不正確

正確答案是: B

解析:

SVM調參中的γ衡量距離超平面遠近的點的影響。

對於較小的γ,模型受到嚴格約束,會考慮訓練集中的所有點,而沒有真正獲取到資料的模式、對於較大的γ,模型能很好地學習到模型。
10、SVM中的代價引數表示:

A 交叉驗證的次數

B 使用的核

C 誤分類與模型複雜性之間的平衡

D 以上均不是

正確答案是:C

解析:

代價引數決定著SVM能夠在多大程度上適配訓練資料。
如果你想要一個平穩的決策平面,代價會比較低;如果你要將更多的資料正確分類,代價會比較高。可以簡單的理解為誤分類的代價。