NLP學習筆記-邏輯迴歸

阿新 • • 發佈：2022-05-10

　　邏輯迴歸（Logistic Regression）仍然屬於線性分類，是一種分類演算法，用於解決二分類問題，估計某種事物的可能性，比如判定一封郵件是否為垃圾郵件；判定使用者點選某廣告的可能性；判定病人患某種疾病的可能性。由於是線性模型，預測時計算簡單、預測速度非常快，當資料規模巨大時，相比SVM神經網路等非線性的模型具有特別的優勢。

邏輯函式（Logistics function）

　　上部分說到邏輯迴歸用於預測某件事的機率，其值必須在區間[0,1]內。樣本標籤值為0或1 代表負樣本和正樣本，那麼特徵向量x屬於正樣本記為p（y=1|x）。x的取值範圍為（-∞，+∞）需要對映到區間[0,1]。

　　這時我們就要介紹Sigmoid函式

，也稱為邏輯函式（Logistic function）　　

　　其函式曲線為：

　　從上圖可以看到sigmoid函式是一個s形的曲線，它的取值在[0, 1]之間，當x為0時，sigmoid函式值為0.5。隨著x的增大，對應的sigmoid函式的值將逼近於1；而隨著x的減小，sigmoid函式的值將逼近於0。

　　然而函式是無法輸入向量的，那麼為了實現迴歸分類器，我們可以給每個特徵向量乘一個迴歸係數然後再累加後送入sigmoid函式，這樣就將樣本的特徵向量對映到了一個概率值p(y =1|x)的函式。

邊界決策（Decision Boundary）

　　邊界決策即在N維平面內，用一個面將不同類別區分開。引用Andrew Ng 課程上的兩張圖來解釋這個問題：

　　線性決策邊界

　　非線性決策邊界　

　　上面兩張圖清晰的解釋了什麼是決策邊界，即區分類別的一個方程，那麼在邏輯迴歸中，決策邊界就是由公式分母中e的係數決定的。

代價函式（Cost function）

　　代價函式C（θ）用於衡量模型的預測值h和真實值y之間的差異，如果有多個樣本，那麼將所有代價函式J（θ）的取值求均值。那麼確定了模型後，就要訓練模型的引數θ，在訓練過程中，使代價函式J最小的θ即為最優的引數。當J（θ）=0表示模型完美的擬合了觀察的資料，沒有任何誤差。

過擬合（Overfitting）

　　然而模型完美擬合了訓練資料並不是一件好事，過擬合是機器學習裡的一個重要的問題。過擬合就是模型訓練時誤差很小，但在測試時誤差很大，也就是模型複雜到可以擬合到我們的所有訓練樣本了，但在實際預測新的樣本的時候，糟糕的一塌糊塗。通俗的講就是應試能力很強，實際應用能力很差。　　

　　再次借用Ng的course中的圖，上面兩張圖分別為線性迴歸和邏輯迴歸，從左到右分別為欠擬合、合適的擬合和過擬合三種情況。

參考

https://blog.csdn.net/JENREY/article/details/83022782

https://zhuanlan.zhihu.com/p/28408516

　　https://www.csdn.net/tags/NtzaEg3sMzk1ODgtYmxvZwO0O0OO0O0O.html

https://blog.csdn.net/u010899985/article/details/79471909

https://cloud.tencent.com/developer/article/1339818

https://blog.csdn.net/tian_tian_hero/article/details/89409472

https://blog.csdn.net/xq151750111/article/details/121341143

NLP學習筆記-邏輯迴歸

NLP學習筆記-邏輯迴歸

machine learning學習之邏輯迴歸解決多分類問題&神經網路前向傳播

NLP學習筆記：詞性標註

機器學習-cs229-邏輯迴歸

機器學習之邏輯迴歸

機器學習之邏輯迴歸

機器學習演算法-邏輯迴歸（三）、邏輯迴歸分類重要知識點總結

Python學習筆記——線性迴歸

手擼機器學習演算法 - 邏輯迴歸

pytorch學習筆記——線性迴歸

NLP學習筆記-感知機

分散式機器學習：邏輯迴歸的並行化實現（PySpark）

《吳恩達機器學習》學習筆記003_邏輯迴歸、正則化

Pytorch學習筆記（2）：邏輯迴歸

機器學習筆記之邏輯迴歸(Logistic Regression）

【學習筆記】邏輯斯蒂迴歸

邏輯迴歸學習筆記

邏輯迴歸 | TensorFlow深度學習筆記

MySQL高階學習筆記（三）：Mysql邏輯架構介紹、mysql儲存引擎詳解

機器學習演算法（一）: 基於邏輯迴歸的分類預測

NLP學習筆記-邏輯迴歸

相關推薦