數據挖掘面試（3）

阿新 • • 發佈：2019-02-07

得到 edit 有效 pos 阿裏 mod bsp info 常見面試題

數據挖掘常見面試題

SVM

1、支撐平面-和支持向量交互的平面,分割平面---支持平面中間面也就是最優分類平面

2、SVM不是定義損失,而是定義支持向量之間的距離目標函數

3、正則化參數對支持向量數的影響

1、LR的形式:h(x)=g(f(x)) 其中x為原數據,f(x)為線性/非線性回歸得到的值,也叫判定邊界 g()為Sigmod函數,最終h(x)輸出的範圍為(0,1)

LR對樣本分布敏感

LR和樸素貝葉斯(NB)之間的區別

LR是loss最優化求出的 NB是跳過統計Loss最優,直接得出權重的 NB比LR多了一個條件獨立假設 LR屬於判別模型 NB是生成模型

在機器學習中,LR和SVM有什麽區別?

兩者都可以處理非線性的問題;LR和SVM最初都是針對二分類問題的,SVM最大化間隔平面,LR極大似然估計,SVM只能輸出類別,不能輸出概率,兩者LOSS function 不同,LR的可解釋性更強,SVM自帶有約束的正則化

LR為什麽用sigmod函數,這個函數有什麽優點和缺點?為什麽不用其他函數?

LR只能用於處理二分類,而Sigmod對於所有的輸入,得到的輸出接近0或者 1

Sigmod存在的問題,梯度消失、他的輸出不是關於原點對稱的導致收斂速度非常慢,計算非常耗時間

Tanh激活案樹存在的問題:梯度消失,計算耗時,但是其輸出的是中心對稱的

Relu:其輸出不關於原點對稱:反向傳播時,輸入的神經元小於0時,會有梯度消失問題,當x=0是,該點的梯度不存在(沒有定義)

Relu問題:權重初始化不當,出事學習率設置的非常大

SVM原問題和對偶問題關系？

SVM對偶問題的獲得方法：將原問題的目標函數L和約束條件構造拉格朗日函數，再對L中原參數和lambda、miu分別求導，並且三種導數都等於0；再將等於0的三個導數帶入原目標函數中，即可獲得對偶問題的目標函數

關系：原問題的最大值相對於對偶問題的最小值

KKT（Karysh-Kuhn-Tucker）條件有哪些，完整描述？

KKT條件是思考如何把約束優化轉化為無約束優化à進而求約束條件的極值點

決策樹過擬合哪些方法，前後剪枝

決策樹對訓練屬性有很好的分類能力；但對位置的測試數據未必有好的分類能力，泛化能力弱，即發生過擬合

防止過擬合的方法：剪枝（把一些相關的屬性歸為一個大類，減少決策樹的分叉）；隨機森林

L1正則為什麽可以把系數壓縮成0，坐標回歸的具體實現細節？

L1正則化可以實現稀疏（即截斷），使訓練得到的權重為0；

l1正則會產生稀疏解，即不相關的的特征對應的權重為0，就相當於降低了維度。但是l1的求解復雜度要高於l2,並且l1更為流行

正則化就是對loss進行懲罰（加了正則化項之後，使loss不可能為0,lambda越大懲罰越大-->lambda較小時，約束小，可能仍存在過擬合；太大時，使loss值集中於正則化的值上）

正則化使用方法：L1/L2/L1+L2

LR在特征較多時可以進行怎樣的優化？-->L1正則有特征選擇的作用

如果是離線的話，L1正則可以有稀疏解，batch大點應該也有幫助，在線的解決思路有ftrl,rds,robots,還有阿裏的mlr。當然還可以用gbdt,fm,ffm做一些特性選擇和組合應該也有效果。

機器學習裏面的聚類和分類模型有哪些？

分類：LR、SVM、KNN、決策樹、RandomForest、GBDT

回歸：non-Linear regression、SVR（支持向量回歸-->可用線性或高斯核（RBF））、隨機森林

聚類：Kmeans、層次聚類、GMM（高斯混合模型）、譜聚類

聚類算法（可以作為監督學習中稀疏特征的處理）：Kmeans、層次聚類、GMM（高斯混合模型）

聚類算法唯一用到的信息是樣本和樣本之間的相似度。

評判聚類效果準則：高類間距，低類內距；高類內相似度，低類間相似度。

相似度與距離負相關。

圖像之間的距離的度量是對每個像素操作，最後獲得距離

正則化為什麽能防止過擬合？

過擬合表現在訓練數據上的誤差非常小，而在測試數據上誤差反而增大。其原因一般是模型過於復雜，過分得去擬合數據的噪聲. 正則化則是對模型參數添加先驗，使得模型復雜度較小，對於噪聲的輸入擾動相對較小。

正則化時，相當於是給模型參數w 添加了一個協方差為1/lambda 的零均值高斯分布先

驗。對於lambda =0，也就是不添加正則化約束，則相當於參數的高斯先驗分布有

著無窮大的協方差，那麽這個先驗約束則會非常弱，模型為了擬合所有的訓練數

據，w可以變得任意大不穩定。lambda越大，表明先驗的高斯協方差越小，模型

約穩定，相對的variance(方差)也越小。

數據挖掘面試（3）

數據挖掘面試（3）

數據挖掘常見面試題

數據挖掘面試（3）

redis數據庫操作（3）

數據分析筆試（3）

如何提高數據挖掘能力（二）

數據挖掘面試筆試（4）

Java面試-數據庫篇（一）

Java面試-數據庫篇（二）

java面試-數據庫篇（三）

K-均值算法（數據挖掘無監督學習）

抽象數據類型（ADT）和面向對象編程（OOP）3.1數據類型和類型檢查

抽象數據類型（ADT）和面向對象編程（OOP）3.2規約

數據庫筆記（mysql）（3）

jsp中讀取數據庫內容（一）

圖書管理系統總結——數據庫操作（一）

圖書管理系統總結——數據庫操縱（二）

.4-Vue源碼之數據雙綁（2）

數據結構系列（二）算法

數據清洗小記（2）：全角數字轉換半角數字

數據結構系列（三）線性表

MySQL數據庫管理（二）單機環境下MySQL Cluster的安裝

數據挖掘面試（3）

數據挖掘常見面試題

相關推薦