線性模型之對數機率迴歸

廣義線性模型：$y=g^{-1}(w^Tx+b)$

$g^{-1}(x)$，單調可微函式

如果用線性模型完成分類任務如何做?

根據線性模型可知，找到一個單調可微函式將分類任務的真實標記$y_i$與線性模型的預測值聯絡起來即可。

廣義線性模型對樣本要求不必要服從正態分佈、只需要服從指數分佈簇(二項
分佈、泊松分佈、伯努利分佈、指數分佈等)即可；廣義線性模型的自變數可
以是連續的也可以是離散的.

logistic迴歸

logistic/sigmoid函式：

$p=h_\theta(x)=g(\theta^Tx+b)=\frac{1}{1+e^{-\theta^Tx+b}}$

$ln\frac{y}{1-y} = \theta^Tx+b$
- $ln\frac{y}{1-y}$：對數機率，將預測的結果逼近真實標記的對數機率
$g^`(z)=g(z)(1-g(z))$

將y視為類後驗概率估計$h_\theta(x)=P(y=1|x)$，則：

$P(y=1|x;\theta)=(h_\theta(x))$
$P(y=0|x;\theta)=1-(h_\theta(x))$
$P(y|x;\theta)=(h_\theta(x))^y(1-h_\theta(x))^{1-y}$

第一步：似然函式:

$L(\theta)=\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta)=\prod_{i=1}^m(h_\theta(x^{(i)}))^{y^{(i)}}(1-h_\theta(x^{(i)}))^{1-y^{(i)}}$

第二步：取對數似然函式：

$l(\theta)=L(\theta)=\sum^m_{i=1}(y^{(i)}logh_\theta(x^{(i)})+(1-y^{(i)})log(1-h_\theta(x^{(i)})))$

Logistic損失函式：$-l(\theta)=\sum^m_{i=1}(-y^{(i)}ln(h_\theta(x^{(i)}))-(1-y^{(i)})ln((1-h_\theta(x^{(i)}))))$$

第三步：對屬於j類別$\theta$求導：

$\frac{\partial l(\theta)}{\partial \theta_j} =\sum^m_{i=1}(\frac{y^{(i)}}{g(\theta^Tx^{(i)})}-\frac{1-y^{(i)}}{1-g(\theta^Tx^{(i)})})\cdot g(\theta^Tx^{(i)})(1-g(\theta^Tx^{(i)}))\cdot\frac{\partial \theta^Tx^{(i)}}{\partial \theta_j}$

=$\sum^m_{i=1}(y^{(i)}(1-g(\theta^Tx^{(i)}))-(1-y^{(i)})g(\theta^Tx^{(i)})\cdot x^{(i)}_j$
=$\sum^m_{i=1}(y^{(i)}-g(\theta^Tx^{(i)})\cdot x^{(i)}_j$

第四步：梯度求解

批量梯度下降：
- for j=1 to n:
  $\theta_j=\theta_j +\alpha\sum^m_{i=1}(y^{(i)}-h_\theta(x^{(i)}))x_j^{(i)}$
隨機梯度下降法（SGD）
- for j=1 to n:
  $\theta_j=\theta_j +\alpha(y^{(i)}-h_\theta(x^{(i)}))x_j^{(i)}$
- 與批量梯度下降法主要體現在權重不同


import numpy as np

# 假設空間函式：h(x)
def sigmoid (xArr):
    xMat = np.mat(xArr)
    return xMat.T * xMat

# 批量梯度下降法
# alpha：學習率 maxCycle：學習的迭代次數 
def gradAscent (dataMatin,labels, alpha=0.1, maxCycle=100):
    
    dataMatrix= np.mat(dataMatin)
    labelsMatrix = np.mat(labels).T 
    m,n = np.shape(dataMatrix)
    # 初始化權重
    weights = np.ones((n,1))
    for k in maxCycle:
        # error, dataMatrix 為m*n的矩陣
        error = labelsMatrix - sigmoid(dataMatrix *weights)
        weights = weights + alpha * dataMatrix.T * error
    return weight

# 隨機梯度下降法
# alpha：學習率
def gradAscent (dataMatin,labels, alpha=0.1):
    
    dataMatrix= np.mat(dataMatin)
    labelsMatrix = np.mat(labels).T 
    m,n = np.shape(dataMatrix)
    # 初始化權重
    weights = np.ones((n,1))
    # m為樣本數
    for i in range(m):
        # error, dataMatrix 為m*n的矩陣
        error = labelsMatrix[i] - sigmoid(dataMatrix[i] * weights)
        weights = weights + alpha * error * dataMatrix[i]
    return weights

softmax迴歸

softmax迴歸是logistic迴歸的一般化，適用於K分類的問題，第k類的引數為向量$θ_k$，組成的二維矩陣為$θ_{k*n}$
softmax函式的本質就是將一個K維的任意實數向量壓縮（對映）成另一個K維的實數向量，其中向量中的每個元素取值都介於（0，1）之間。
logistics迴歸概率函式：
- $p(y=1|x;\theta)=\frac{1}{1+e^{-\theta^Tx}}$
softmax迴歸概率函式：
- $p(y=k|x;\theta)=\frac{e^{\theta^T_kx}}{\sum_{j=1}^{k}e^{-\theta^T_jx}} \quad k=1,2.\dots,K$
softmax假設函式：
softmax損失函式：
- $J(\theta)=-\frac{1}{m}\sum^m_(i=1)\sum^k_(j=1)I(y^{(i)}=j)ln(\frac{e^{\theta^T_jx^{(i)}}}{\sum_{l=1}^{k}e^{-\theta^T_lx^{(i)}}})$
  - 解法同上：logistics迴歸的對數似然函式
- 函式$I(y^{(i)}=j)$：
  - $if(y^{(i)}=j): \quad I(y^{(i)}=j)=1 \quad else \quad I(y^{(i)}=j)=0$
  - 存在的意思：使不是j類別的樣本損失為0，使似然函式最大化
對第i個樣本的屬於j類別$\theta$分量求導：（$0<i<m$，$1<j<k$）
- $\nabla_{\theta_j}J(\theta)=\nabla-I(y^{(i)}=j)ln(\frac{e^{\theta_j^Tx^{(i)}}}{\sum_{l=1}^Ke^{\theta_l^Tx^{(i)}}})$
- $ln(\frac{e^{\theta_j^Tx^{(i)}}}{\sum_{l=1}^Ke^{\theta_l^Tx^{(i)}}}) = \theta_j^Tx^{(i)}-ln(\sum_{l=1}^Ke^{\theta_l^Tx^{(i)})}$
- $\nabla_{\theta_j}J(\theta)=-I(y^{(i)}=j)(1-\frac{e^{\theta^T_jx^{(i)}}}{\sum_{l=1}^{k}e^{-\theta^T_lx^{(i)}}})x^{(i)}$
第j類別$\theta$更新：
- 批量梯度下降
  - $\theta_j=\theta_j+\alpha \sum_{i=1}^{m}I(y^{(i)}=j)(1-p(y^{(i)}=j|x^{(i)};\theta))x^{(i)}$
- 隨機梯度下降
  - $\theta_j=\theta_j+\alpha I(y^{(i)}=j)(1-p(y^{(i)}=j|x^{(i)};\theta))x^{(i)}$

線性模型之對數機率迴歸

線性模型之對數機率迴歸廣義線性模型：$y=g^{-1}(w^Tx+b)$ $g^{-1}(x)$，單調可微函式如果用線性模型完成分類任務如何做? 根據線性模型可知，找到一個單調可微函式將分類任務的真實標記$y_i$與線性模型的預測值聯絡起來即可。廣義線性模型對樣本要求不必要服從正態分

線性模型，線性迴歸，對數機率迴歸(Logistic regression)的理解與推導(深度學習前戲( ╯□╰ ))

對數機率迴歸（logistic regression），有時候會譯為邏輯迴歸(音譯)，其實是我們把迴歸模型應用到分類問題時，線性迴歸的一種變形，主要是針對二分類提出的。既然是線性迴歸的一種變形，那麼在理解對數機率迴歸時，我們先來了解一下什麼是線性迴歸。 1.線性迴歸 1. 1線性方程

統計學習六：1.對數線性模型之邏輯回歸

最優化 clas distrib 技術分享 mat 計算隨機 res 類模型全文引用自《統計學習方法》（李航）本節介紹的對數線性模型，主要包括邏輯斯諦回歸(logistic regression)模型以及最大熵模型(maximum entropy model)。邏

線性模型之邏輯迴歸(LR)(原理、公式推導、模型對比、常見面試點)

參考資料(要是對於本文的理解不夠透徹，必須將以下部落格認知閱讀，方可全面瞭解LR)： (1).https://zhuanlan.zhihu.com/p/74874291 (2).邏輯迴歸與交叉熵 (3).https://www.cnblogs.com/pinard/p/6029432.html (4).htt

python實現周志華西瓜書《機器學習》習題3.3對數機率迴歸

python小白入手，第一個程式。首先感謝大牛的原始碼： https://blog.csdn.net/onthewaygogoing/article/details/68485682 大牛的思路很巧妙，把矩陣操作轉化成列表操作，時刻保證列表代表的矩陣維度一致。我

【機器學習+sklearn框架】（一）線性模型之Linear Regression

前言一、原理 1.演算法含義 2.演算法特點二、實現 1.sklearn中的線性迴歸 2.用Python自己實現演算法三、思考（面試常問）參考前言線性迴歸（Linear Regression）基本上可以說是機器

《機器學習》對數機率迴歸——筆記

對數機率迴歸不是迴歸函式而是分類函式。廣義線性模型提出問題：需要找到一個單調可微函式將分類任務的真實標記y與線性迴歸模型的預測值聯絡起來線性迴歸預測值，應用於分類問題一般選用“單位階躍函式” 但階躍函式不連續，而對數機率函式正好可以替代階躍函式，它單

邏輯斯諦迴歸(對數機率迴歸)

文章目錄 LR簡介損失函式參考 LR簡介邏輯斯諦迴歸是一種經典的線性分類方法，又被稱為對數機率迴歸，其屬於對數線性模型。線性迴歸完成了資料的擬合，我們通過引入一個

1.2.11 【Deep Learning翻譯系列】Explanation of Logistic Regression Cost Function 對數機率迴歸代價函式的說明

視訊地址本視訊給出在對數機率迴歸使用這個成本函式的理由。在之前的對數機率迴歸中，預測 y ^

1.2.9&1.2.10 【Deep Learning翻譯系列】Logistic Regression Gradient Descent 對數機率迴歸的梯度下降

我們按如下方式設定了對數機率迴歸， z=wTx+b, z = w T

logistic regression（LR）對數機率迴歸 / 邏輯迴歸公式推導

因為是傻瓜式教程，所以一定會非常詳細！一些概念link到了Wiki的相應解釋上。歡迎捉蟲~！二分類和迴歸的關係考慮x⇒y 表示的二分類或迴歸問題，其中x 是輸入，y 是輸出。 1. 在二分類中，y 的值取0或1，代表被分為正類或負類。在迴歸中，y 的取值為連續值。 2. 線上

對數機率迴歸-機器學習

資料集百度網盤，就是西瓜書3.0a的資料。首先，載入資料，load_data（file)函式。def load_data(file): s =[] with open(file) as f: for line in f.readlines

GLM(廣義線性模型) 與 LR(邏輯迴歸) 詳解

GLM 廣義線性模型 George Box said: “All models are wrong, some are useful” 1. 始於 Linear Model 作為 GLM 的基礎，本節 review 經典的 Linear Regress

Lasso and Elastic Net for Sparse Signals：線性模型之套索和彈性網稀疏訊號對比

這兩個模型都是針對線性迴歸模型linear_model,區別在於使用了不同的損失函式或者不同的正則項函式相關指數R2知識介紹迴歸平方和+殘差平方和=總偏差平方和殘差平方和=sum(y預測i-y觀測i）^2 總偏差平方和=sum(y觀測i

對數機率迴歸（Logistic Regression）總結

對數機率迴歸logistic regression，雖然名字是迴歸，但是實際上它是處理分類問題的演算法。簡單的說迴歸問題和分類問題如下：迴歸問題：預測一個連續的輸出。分類問題：離散輸出，比如二分類問題輸出0或1. 邏輯迴歸常用於垃圾郵件分類，天氣預測、

演算法：動態規劃——線性模型之小朋友過橋

題目：在一個夜黑風高的晚上，有n（n <= 50）個小朋友在橋的這邊，現在他們需要過橋，但是由於橋很窄，每次只允許不大於兩人通過，他們只有一個手電筒，所以每次過橋的兩個人需要把手電筒帶回來，i號小朋友過橋的時間為T[i]，兩個人過橋的總時間為二者中時間長者。問所有小朋友過橋的總時間最短是多少。

小白學習機器學習---第三章(2):對數機率迴歸python實現

上程式碼~~~~~~~~###梯度下降法實現多元線性迴歸 def loadDataSet(): ###資料匯入函式### dataMatrix=[] #資料矩陣，第一列是w=1.0，第2,3列是特徵 labelMatrix=[] #標籤矩陣

動態規劃之線性模型之小朋友過河——Java實現

動態 color str 情況 oid 實現 nbsp mce void 題目：　　在一個夜黑風高的晚上，有n（n <= 50）個小朋友在橋的這邊，現在他們需要過橋，但是由於橋很窄，每次只允許不大於兩人通過，他們只有一個手電筒，所以每次過橋的兩個人需要把手電筒帶回

線性模型之LDA和PCA推導

線性模型之LDA和PCA 線性判別分析LDA LDA是一種無監督學習的降維技術。思想：投影后類內方差最小，類間方差最大，即期望同類例項投影后的協方差儘可能小，異類例項的投影后的類中心距離儘量大。二分類推導給定資料集$D=\{(x_i,y_i)\}_{i=1}^m$，令\(X_i，\mu_i，\sum

機器學習5- 對數機率迴歸+Python實現

[toc] ## 1. 對數機率迴歸考慮二分類任務，其輸出標記 $y \in \{0, 1\}$，記線性迴歸模型產生的預測值 $z=\boldsymbol{w}^T\boldsymbol{x} + b$ 是實值，於是我們需要一個將實值 $z$ 轉換為 $0/1$ 的 $g^{-}(\cdot)$。最理想

線性模型之對數機率迴歸

線性模型之對數機率迴歸

logistic迴歸

softmax迴歸

相關推薦