統計學習方法|Logistic迴歸
阿新 • • 發佈:2018-12-11
01 邏輯斯諦分佈
logistic迴歸是一種經典的分類演算法,模型形式如下(二分類),其中x服從邏輯斯諦分佈:
什麼叫服從邏輯斯諦分佈呢?
直觀點,分佈函式和密度函式長這樣:
邏輯斯諦迴歸模型有什麼特點呢?
我們來看邏輯斯諦分佈函式的形狀,橫軸範圍在正負無窮之間,而縱軸範圍在0~1之間,這個特徵太有意思了!
把縱軸看作概率,正好分佈在0%~100%之間,橫軸作為輸入正好在正負無窮之間,可以是任意值
把這個特徵帶入邏輯斯蒂迴歸模型公式,w*x作為橫軸輸入,F(X)作為概率輸出,只要計算得到合適的引數w,那麼指定的x輸入產生的F(X)可以很好地將輸入樣本x分類,這就是邏輯斯諦迴歸模型分類的原理。
於是,邏輯斯諦迴歸模型的求解問題便變成了求解引數w的問題。
02 引數求解
那麼,如何求解引數w呢?
於是求解引數w的問題轉化為了最優化問題,可以通過梯度下降法、擬牛頓法等方法求解。我們將在下期給出使用隨機梯度上升法求解邏輯斯蒂迴歸模型的實操。
簡單提一句,剛才我們一直在講二分類的邏輯斯蒂迴歸模型,下面給出多項邏輯斯蒂迴歸模型
03 與樸素貝葉斯的異同點
通過剛才學習,你可能會發現,邏輯斯蒂迴歸和樸素貝葉斯一樣,都是基於概率分類:
- 邏輯斯諦迴歸模型的分類原則是,將x分類到使P(Y|x)最大的那個Y類,x服從邏輯斯諦分佈
- 樸素貝葉斯的分類原則是,將x分類到使P(Y|x)最大的那個Y類,P(Y|x)通過P(x),P(x|Y)得到
NB、LR有哪些不同點呢?
1. 生成模型 vs 判別模型
- Naive Bayes是一個生成模型,在計算P(y|x)之前,先要從訓練資料中計算P(x|y)和P(y)的概率,從而利用貝葉斯公式計算P(y|x)
- Logistic Regression是一個判別模型,它通過在訓練資料集上最大化判別函式P(y|x)學習得到,不需要知道P(x|y)和P(y)
2. 條件假設
- Naive Bayes是建立在條件獨立假設基礎之上的
- Logistic Regression的限制則要寬鬆很多,如果資料滿徐條件獨立假設,Logistic Regression能夠取得非常好的效果;當資料不滿度條件獨立假設時,Logistic Regression仍然能夠通過調整引數讓模型最大化的符合資料的分佈,從而訓練得到在現有資料集下的一個最優模型
04 總結
本文講解了邏輯斯蒂迴歸模型(LR)的原理以及和NB的異同點,下一期我們將利用隨機梯度上升演算法訓練一個LR模型,用於分類,敬請期待~~
05 參考
《統計學習方法》 李航 Chapter6