2018校招——機器學習問題彙總

阿新 • • 發佈：2019-02-05

說明：問題主要來自牛客網面經。

LR 專題

1 講一下邏輯迴歸，及優缺點
2 用程式碼寫出LR的損失函式（目標函式），損失函式如何推導？
3 LR的優化方法及區別，梯度下降有哪幾種
4 LR的思想 LR對輸入和輸出的分佈假設
5 LR可以用來處理非線性問題麼？怎麼做？可以像SVM那樣麼？為什麼？
6 LR模型為什麼採用似然估計？
7 LR為什麼要用對數似然，不用平方損失和絕對值之類？平方損失是不是凸函式？
8 線性迴歸和邏輯迴歸的不同？
輸出：前者可以擬合數據，輸出範圍可以任意，後者主要是二分類，輸出屬於每類的概率，輸出在0-1之間
9 比較lr和svm
10 softmax公式，編寫函式計算softmax中的cross entropy loss
11 邏輯函式是啥
12 LR為什麼要用logistic函式？該函式優缺點？為什麼不用其他函式？

SVM專題

1 介紹svm
2 svm推導軟間隔問題
3 原問題和對偶問題，關係？ KKT限制條件？為什麼轉化為對偶問題
4 為什麼要除以||w||，為什麼優化問題中間隔γ可以取1
5 核的概念，為什麼用核函式？有哪些核函式？如何選擇？
6 svm有哪幾個比較大的特點？線性不可分怎麼辦
7 SVM 為什麼引入拉格朗日優化方法
8 怎麼去優化SVM演算法模型？
9 SVM如何處理多類問題
10 能做迴歸麼？怎麼做？
11 svm和LR區別及對離群值的敏感度分析
12 svm LR gbdt rf的區別
13 svm與感知器的聯絡和優缺點比較
14 線性核高斯核哪個model更小？
15 SVM函式間隔、幾何間隔是什麼？
16 高斯核deta變大，整個模型是過擬合還是欠擬合
17 模型訓練後，需要儲存哪些引數

過擬合正則化專題

1 什麼是過擬合，怎麼判斷是否過擬合
2 怎麼減少或防止過擬合
3 什麼是正則化 L1 L2範數區別是什麼？各用在什麼地方
4 ridge和lasso有什麼區別？
5 L2範數為什麼可以防止過擬合？ L1範數為什麼權值稀疏？
6 概率論角度解釋正則化
7 L1正則怎麼處理0點不可導的情形？
8 L1和L2正則項，加哪個可以用核

整合學習專題

1 決策樹演算法？
2 什麼是熵？資訊熵公式
3 資訊增益公式及意義？
4 決策樹處理連續值的方法
5 如何判斷決策樹及隨機森林過擬合
6 介紹決策樹三種決策樹區別和適應場景
7 說說決策樹，決策樹節點按照什麼分裂，如何優化決策避免過擬合；
8 隨機森林演算法？優缺點？
9 隨機森林損失函式？
10 隨機森林怎麼取最終結果（分類與迴歸不同）
11 隨機森林怎麼避免ID3演算法增益的缺點
12 防止隨機森林過擬合？為什麼有放回取樣？
13 瞭解Boosting麼
14 gbdt樹根據什麼分裂？怎麼併發？
15 你覺得為什麼gbdt的boosting體現在哪裡。
16 隨機森林節點的分裂策略，以及它和gbdt做分類有什麼區別？哪個效果更好些？為什麼？哪個更容易過擬合？為什麼？
17 介紹xgboost原理一下。寫下xgboost目標函式。
18 講講xgboost怎麼用以及常用引數
19 xgboost對特徵缺失敏感嗎，對缺失值做了什麼操作? 哪些模型對特徵缺失敏感，哪些不敏感
20 LR RF GBDT 損失函式解釋
21 達到相似的預測結果，RF和GBDT哪個樹深
22 Bagging和bosting、GBDT 區別
23 Adaboost 隨機森林區別？
24 GBDT 隨機森林區別
25 GDBT和XGBoost的區別
26 C4.5 ID3 優缺點
27 決策樹如何防止過擬合

聚類專題

1 k-means兩個關鍵點（初始類心、k的選擇）？原理？優缺點？改進？
2 Em kmean 的關係
3 適用什麼樣資料集、怎麼評價 Kmeans 聚類結果
4 其他聚類演算法
5 k-means 聚類個數選擇？
6 模糊k均值優點
7 Kmeans中，現在給你n個樣本點不在歐式空間中，無法度量距離。現在給了一個函式F，可以衡量任意兩個樣本點的相似度。請問Kmeans如何操作？

最優化專題

1 梯度下降法，及其優缺點
2 梯度下降法的原理以及各個變種，這幾個方法會不會有區域性最優問題
3 講下擬牛頓法
4 牛頓法原理和適用場景，有什麼缺點，如何改進
5 說說牛頓法與梯度下降比較

其他

1 離散傅立葉變換公式
2 泰勒展開怎麼寫
3 監督學習與非監督學習區別
4 評價函式及標準，說說AUC曲線、PR曲線、準確率、召回率解釋一下
5 特徵降維
6 特徵缺失，不用說求均值之類的填補方法，用LR、RF去預測缺失值，哪個好
7 不變動模型和引數，只對資料來說怎麼減少過擬合
8 講k-fold CrossValidation
10 有一百個數，隨機選取數字讓其均勻分成十份，不允許有一次碰撞
11 訓練時要分為train、validation、test三部分，分成train、validation不就夠了嗎？
12 有沒有做過特徵工程
13 如何用盡量少的樣本訓練模型，同時保證效能
14 結合實際場景，解決海量圖片中搜索相同圖片和相似圖片問題？實時轉化為二值序列？
15 假設加了很多很多負例，auc和prc哪個對此不敏感
16 一枚硬幣，扔10次，4次正面朝上，求它的最大似然估計
17 資料類別不均衡的處理方法
18 評價指標巨集平均和微平均
19 輸入層特徵歸一化？為什麼？

1 L0、L1、L2正規化，他們的作用
2 KNN演算法如何決定k值？ k對偏差方差的影響？
3 Boost演算法，手寫adaboost流程，主要計算誤差、分類器係數、權值更新
4 各種分類演算法適合場景，優缺點？
5 線性迴歸的損失函式
6 講講機器學習中常用的損失函式有哪些？交叉熵有什麼好處？
7 樸素貝葉斯，先驗、似然和後驗分別是什麼

2018校招——機器學習問題彙總

LR 專題

SVM專題

過擬合正則化專題

整合學習專題

聚類專題

最優化專題

其他

2018校招——機器學習問題彙總

2019屆大疆提前批校招機器學習崗筆試B卷

騰訊校招機器學習自然語言處理

今日頭條2018校招測試開發方向(第一、二、三、四批)程式設計題彙總

[編程題] 相反數網易2018校招

58同城2018校招前端筆試題總結

1~n的全排列--閱文集團2018校招筆試題

2018-05-11-機器學習環境安裝-I7-GTX960M-UBUNTU1804-CUDA90-CUDNN712-TF180-KERAS-GYM-ATARI-BOX2D

2018校招面經-深信服-網申-技術服務工程師掛麵

今日頭條2018校招演算法方向--手串問題

2018校招面試隨筆

2018校招多益網路人工智慧及大資料研發工程師面經

2018校招深信服程式設計題與面試題

2018最新BAT機器學習演算法崗位面試分享

迅雷--2018校招AI演算法筆試題

KDD 2018 | Airbnb用機器學習實現房屋動態定價（不看你就out啦！）

位元組跳動2018校招演算法方向（第一批）（程式設計題詳解）

2018 百度機器學習演算法工程師面試

【筆試題】拼多多2018校招內推程式設計

美國芯源系統(MPS)2018校招筆試經歷

2018校招——機器學習問題彙總

LR 專題

SVM專題

過擬合 正則化專題

整合學習專題

聚類專題

最優化專題

其他

相關推薦

過擬合正則化專題