機器學習-機器學習試題(一)
前言
在網上找的一些試題及延伸的一些問題,以選擇題為主,主要是關於基礎理論知識,同時給出自己聯想到的一些問題。當然基礎問題應當包含演算法本身的過程和某些推導過程。比如:LR、SVM的推導。
試題
試題1: 已知座標軸中兩點A(2,−2)B(−1,2),求這兩點的曼哈頓距離(L1距離)。
答案:7 。向量AB(-3,4),L1 是向量中非零元素的絕對值和。
問題延伸:機器學習演算法中哪些應用了L1,哪些應用了L2.
參考連結正則化技術
試題2:SVM中的核技巧(Kernal trick)的作用包括以下哪項?
A. 特徵升維
B. 特徵降維
C. 防止過擬合
答案:C
核技巧使用核函式將樣本從原特徵空間對映到更高維的空間,使得樣本在更高維的空間中線性可分。
問題延伸:SVM的核函式本質及推導過程。
試題3: 在資料預處理階段,我們常常對數值特徵進行歸一化或標準化(standardization, normalization)處理。這種處理方式理論上不會對下列哪個模型產生很大影響?
A. k-Means
B. k-NN
C. 決策樹
答案:C
k-Means和k-NN都需要使用距離。而決策樹對於數值特徵,只在乎其大小排序,而非絕對大小。不管是標準化或者歸一化,都不會影響數值之間的相對大小。關於決策樹如何對數值特徵進行劃分
問題延伸:機器學習那些演算法是進行歸一化處理或標準化。
試題4:下面哪個情形不適合作為K-Means迭代終止的條件?
A. 前後兩次迭代中,每個聚類中的成員不變
B. 前後兩次迭代中,每個聚類中樣本的個數不變
C. 前後兩次迭代中,每個聚類的中心點不變
答案:B
A和C是等價的,因為中心點是聚類中成員各座標的均值
問題延伸:K-means的k值選擇及更新,迭代終止的兩個條件。
試題5:關於欠擬合(under-fitting),下面哪個說法是正確的?
A. 訓練誤差較大,測試誤差較小
B. 訓練誤差較小,測試誤差較大
C. 訓練誤差較大,測試誤差較大
答案:C
當欠擬合發生時,模型還沒有充分學習訓練集中基本有效資訊,導致訓練誤差太大。測試誤差也會較大,因為測試集中的基本資訊(分佈)是
與訓練集相一致的。
延伸問題:模型狀態?怎樣判定?工具是什麼?