1. 程式人生 > >機器學習面試題整理

機器學習面試題整理

持更中。。。(最近電腦卡得要死)
主要focus在場景題上

一、2015百度校招筆試題
(1)垃圾郵件分類問題
1. 垃圾郵件分類特徵?
2. 訓練集中99%非垃圾、1%垃圾,訓練模型視為100%非垃圾,準確率?召回率?
3. 在實際的應用場景中,儘可能地找回垃圾郵件,應該怎麼辦?
(2)求元素之和最大的子陣列 (解答:dp)
(3)從字串流中隨機選擇一個字串
【從字串流中隨機選擇一個字串】
  解題的核心是在倖存的字串中挑選,並在過程中不斷更新。
  你開啟檔案並儲存第一個字串,此時有了一個備選字串,並有100%的可能性選中它。儲存這個字串,繼續讀入下一個字串,這樣就有了2個備選字串,選中每個的可能性都是50%。選中其中之一併儲存,然後丟棄另一個。再讀入下一個字串,按照新字串的33%原先倖存字串67%的概率,在兩者之間選擇一個,然後儲存新選中的字串。
【擴充套件】
  如何從字串流中隨機選取1000個字串。
  對於資料流中的前1000個關鍵字,顯然都要放到陣列中。
  對於資料流中的的第n(n>1000)個關鍵字,我們知道這個關鍵字被隨機選中的概率為1000/n。所以我們以1000/n的概率用這個關鍵字去替換陣列中的隨機一個。這樣就可以保證所有關鍵字都以1000/n的概率被選中。
(3)蒙塔卡羅模擬
(4)CTR問題
1. 廣告中的排序特徵是one-hot好,還是標準化好(我覺得是標準化)
2. 初始值的設定:廣告點選率的平均值or設為1 (我覺得是廣告點選率的平均值)
3. 訓練樣本擬合較好而測試樣本擬合較差的原因(過擬合,或者用到了label特徵)
4. auc計算方式(ROC曲線下陰影面積)