1. 程式人生 > 其它 >NLP學習筆記-邏輯迴歸

NLP學習筆記-邏輯迴歸

  邏輯迴歸(Logistic Regression)仍然屬於線性分類,是一種分類演算法,用於解決二分類問題,估計某種事物的可能性,比如判定一封郵件是否為垃圾郵件;判定使用者點選某廣告的可能性;判定病人患某種疾病的可能性。由於是線性模型,預測時計算簡單、預測速度非常快,當資料規模巨大時,相比SVM神經網路等非線性的模型具有特別的優勢。

 

邏輯函式(Logistics function)

  上部分說到邏輯迴歸用於預測某件事的機率,其值必須在區間[0,1]內。樣本標籤值為0或1 代表負樣本和正樣本,那麼特徵向量x屬於正樣本記為p(y=1|x)。x的取值範圍為(-∞,+∞)需要對映到區間[0,1]。

  這時我們就要介紹Sigmoid函式

,也稱為邏輯函式(Logistic function)  

    

  其函式曲線為:

  

   從上圖可以看到sigmoid函式是一個s形的曲線,它的取值在[0, 1]之間,當x為0時,sigmoid函式值為0.5。隨著x的增大,對應的sigmoid函式的值將逼近於1;而隨著x的減小,sigmoid函式的值將逼近於0。

   

  

  然而函式是無法輸入向量的,那麼為了實現迴歸分類器,我們可以給每個特徵向量乘一個迴歸係數然後再累加後送入sigmoid函式,這樣就將樣本的特徵向量對映到了一個概率值p(y =1|x)的函式。

 

邊界決策(Decision Boundary)

  邊界決策即在N維平面內,用一個面將不同類別區分開。引用Andrew Ng 課程上的兩張圖來解釋這個問題:

  線性決策邊界

  

  非線性決策邊界 

  

   上面兩張圖清晰的解釋了什麼是決策邊界,即區分類別的一個方程,那麼在邏輯迴歸中,決策邊界就是由公式分母中e的係數決定的。

 

代價函式(Cost function)

  代價函式C(θ)用於衡量模型的預測值h和真實值y之間的差異,如果有多個樣本,那麼將所有代價函式J(θ)的取值求均值。那麼確定了模型後,就要訓練模型的引數θ,在訓練過程中,使代價函式J最小的θ即為最優的引數。當J(θ)=0表示模型完美的擬合了觀察的資料,沒有任何誤差。

 

過擬合(Overfitting)

  然而模型完美擬合了訓練資料並不是一件好事,過擬合是機器學習裡的一個重要的問題。過擬合就是模型訓練時誤差很小,但在測試時誤差很大,也就是模型複雜到可以擬合到我們的所有訓練樣本了,但在實際預測新的樣本的時候,糟糕的一塌糊塗。通俗的講就是應試能力很強,實際應用能力很差。  

  

   

  再次借用Ng的course中的圖,上面兩張圖分別為線性迴歸和邏輯迴歸,從左到右分別為欠擬合、合適的擬合和過擬合三種情況。

參考

         https://blog.csdn.net/JENREY/article/details/83022782

        https://zhuanlan.zhihu.com/p/28408516

   https://www.csdn.net/tags/NtzaEg3sMzk1ODgtYmxvZwO0O0OO0O0O.html

        https://blog.csdn.net/u010899985/article/details/79471909

        https://cloud.tencent.com/developer/article/1339818

        https://blog.csdn.net/tian_tian_hero/article/details/89409472

        https://blog.csdn.net/xq151750111/article/details/121341143