秋招材料整理——LR
阿新 • • 發佈:2018-12-17
一、整體概述
LR假設資料服從伯努利分佈(零一分佈,二項分佈),通過極大化似然函式的方法,運用梯度下降來求解引數,從而達到將資料二分類的目的。
- 極大似然原理:
- 簡單理解:樣本所展現的狀態便是所有可能狀態中出現概率最大的狀態
- 引數估計:調整引數使實驗結果發生的概率最大,此時引數的取值即為所求
- 為什麼用極大似然函式?求解引數速度快,損失函式的更新速度只和資料有關,和sigmoid本身的梯度無關
- 為什麼不用平方損失?梯度更新速度和sigmoid本身梯度相關.sigmoid梯度<=0,25,慢
二、損失函式
損失函式:極大似然函式(對其取對數<=>對數損失函式)(h是Sigmoid函式)
三、特徵高度相關
- 訓練過程中,若很多特徵高度相關,會造成怎樣的影響? 在損失函式最終收斂的情況下,不會影響分類器效果
- 那為什麼還會在訓練過程中將高度相關的特徵去掉? 提高訓練速度
四、處理非線性
LR是線性分類器嗎,LR要處理非線性怎麼辦? 是線性 用K-means算出N箇中心點,每一個類別的中心點只留少數幾個,然後用核函式
五、為什麼LR要使用Sigmod函式
忘了從哪個大神那看到的了,如果有誰知道,麻煩聯絡我加上鍊接,謝謝
- 首先,LR假設兩個類別的特徵服從均值不等,方差相等的高斯分佈,也就是 為什麼假設服從高斯分佈?一方面是高斯分佈比較容易處理,另一方面,從資訊理論的角度看,當均值和方差已知時,高斯分佈是熵最大的分佈,為什麼要熵最大?因為最大熵的分佈可以平攤風險,就好比不要把雞蛋放到同一個籃子裡。為什麼假設方差相等?為了計算方便…
- 定義風險: , 是樣本實際標籤為j時,卻把它預測為i是所帶來的風險。 我們認為,預測正確不會帶來風險,因此 , 又認為,記λ。 所以,
- 現在問題來了,我拿到一個樣本,我應該把它預測為0還是預測為1好? 按照風險最小化的原則,應該選擇風險最小的, 即時,預測為0的風險 < 預測為1的風險, 即時,應該把樣本預測為0, 兩邊除一下,就會得到 對不等式左邊的部分取一下對數(為什麼取對數?因為兩個類別的特徵服從均值不等,方差相等的高斯分佈,取對數方便處理高斯分佈裡的指數),再利用貝葉斯公式進行展開,即得 方便起見,假設x是一維的,套入高斯分佈的公式,此外,由於和 都是常數,第二項記為常數C1繼續展開,將得到 又,即可得到