資料探勘常見面試題
SVM
1、支撐平面-和支援向量互動的平面,分割平面---支援平面中間面也就是最優分類平面
2、SVM不是定義損失,而是定義支援向量之間的距離目標函式
3、正則化引數對支援向量數的影響
LR
1、LR的形式:h(x)=g(f(x)) 其中x為原資料,f(x)為線性/非線性迴歸得到的值,也叫判定邊界 g()為Sigmod函式,最終h(x)輸出的範圍為(0,1)
LR對樣本分佈敏感
LR和樸素貝葉斯(NB)之間的區別
LR是loss最優化求出的 NB是跳過統計Loss最優,直接得出權重的 NB比LR多了一個條件獨立假設 LR屬於判別模型 NB是生成模型
在機器學習中,LR和SVM有什麼區別?
兩者都可以處理非線性的問題;LR和SVM最初都是針對二分類問題的,SVM最大化間隔平面,LR極大似然估計,SVM只能輸出類別,不能輸出概率,兩者LOSS function 不同,LR的可解釋性更強,SVM自帶有約束的正則化
LR為什麼用sigmod函式,這個函式有什麼優點和缺點?為什麼不用其他函式?
LR只能用於處理二分類,而Sigmod對於所有的輸入,得到的輸出接近0或者 1
Sigmod存在的問題,梯度消失、他的輸出不是關於原點對稱的導致收斂速度非常慢,計算非常耗時間
Tanh啟用桉樹存在的問題:梯度消失,計算耗時,但是其輸出的是中心對稱的
Relu:其輸出不關於原點對稱:反向傳播時,輸入的神經元小於0時,會有梯度消失問題,當x=0是,該點的梯度不存在(沒有定義)
Relu問題:權重初始化不當,出事學習率設定的非常大
SVM原問題和對偶問題關係?
SVM對偶問題的獲得方法:將原問題的目標函式L和約束條件構造拉格朗日函式,再對L中原引數和lambda、miu分別求導,並且三種導數都等於0;再將等於0的三個導數帶入原目標函式中,即可獲得對偶問題的目標函式
關係:原問題的最大值相對於對偶問題的最小值
KKT(Karysh-Kuhn-Tucker)條件有哪些,完整描述?
KKT條件是思考如何把約束優化轉化為無約束優化à進而求約束條件的極值點
決策樹過擬合哪些方法,前後剪枝
決策樹對訓練屬性有很好的分類能力;但對位置的測試資料未必有好的分類能力,泛化能力弱,即發生過擬合
防止過擬合的方法:剪枝(把一些相關的屬性歸為一個大類,減少決策樹的分叉);隨機森林
L1正則為什麼可以把係數壓縮成0,座標迴歸的具體實現細節?
L1正則化可以實現稀疏(即截斷),使訓練得到的權重為0;
l1正則會產生稀疏解,即不相關的的特徵對應的權重為0,就相當於降低了維度。但是l1的求解複雜度要高於l2,並且l1更為流行
正則化就是對loss進行懲罰(加了正則化項之後,使loss不可能為0,lambda越大懲罰越大-->lambda較小時,約束小,可能仍存在過擬合;太大時,使loss值集中於正則化的值上)
正則化使用方法:L1/L2/L1+L2
LR在特徵較多時可以進行怎樣的優化?-->L1正則有特徵選擇的作用
如果是離線的話,L1正則可以有稀疏解,batch大點應該也有幫助,線上的解決思路有ftrl,rds,robots,還有阿里的mlr。當然還可以用gbdt,fm,ffm做一些特性選擇和組合應該也有效果。
機器學習裡面的聚類和分類模型有哪些?
分類:LR、SVM、KNN、決策樹、RandomForest、GBDT
迴歸:non-Linear regression、SVR(支援向量迴歸-->可用線性或高斯核(RBF))、隨機森林
聚類:Kmeans、層次聚類、GMM(高斯混合模型)、譜聚類
聚類演算法(可以作為監督學習中稀疏特徵的處理):Kmeans、層次聚類、GMM(高斯混合模型)
聚類演算法唯一用到的資訊是樣本和樣本之間的相似度。
評判聚類效果準則:高類間距,低類內距;高類內相似度,低類間相似度。
相似度與距離負相關。
影象之間的距離的度量是對每個畫素操作,最後獲得距離
正則化為什麼能防止過擬合?
過擬合表現在訓練資料上的誤差非常小,而在測試資料上誤差反而增大。其原因一般是模型過於複雜,過分得去擬合數據的噪聲. 正則化則是對模型引數新增先驗,使得模型複雜度較小,對於噪聲的輸入擾動相對較小。
正則化時,相當於是給模型引數w添加了一個協方差為1/lambda的零均值高斯分佈先
驗。對於lambda =0,也就是不新增正則化約束,則相當於引數的高斯先驗分佈有
著無窮大的協方差,那麼這個先驗約束則會非常弱,模型為了擬合所有的訓練數
據,w可以變得任意大不穩定。lambda越大,表明先驗的高斯協方差越小,模型
約穩定,相對的variance(方差)也越小。