1. 程式人生 > >機器學習筆記(一)邏輯迴歸與多項邏輯迴歸

機器學習筆記(一)邏輯迴歸與多項邏輯迴歸

1.邏輯迴歸與多項邏輯迴歸

1.1什麼是邏輯迴歸?

邏輯迴歸,可以說是線上性迴歸的基礎上加上一個sigmoid函式,將線性迴歸產生的值歸一化到[0-1]區間內。sigmoid函式如下:

sigmoid(x)=11+ex

[問題] :為什麼要提出邏輯迴歸呢?

線上性迴歸中,我們知道 θTX 就代表了分類的置信度。我們定義一個閾值θ0 , 來進行分類,但實際上,我們都知道θTX 的值與θ0 的差值越大,則分類正確的概率越大,差值越小則正確概率越小。我們希望輸出這樣的一個概率,就需要將θ

TX 的範圍從(,+) 限制到(0,1)中。

那麼,為什麼要使用sigmoid函式呢?

原因有下:

  1. sigmoid函式輸出範圍為(0,1) ;
  2. sigmoid函式是一個單調遞增函式,滿足θTX越大時,輸出值越大;
  3. 對於二分類問題,它的概率分佈滿足伯努利分佈,也就是

    {Pn=pPn=1pn=1n=0

這裡,我們引入一個發生比odds=p1p , 做如下操作:

​ 1. 兩邊同時取ln, ln(odds)=ln(p1p)

​ 2. logit(p)=ln(odds)=ln(p1p) 由於對於這個函式,定義域為(0,1) , 值域為(-∞,+∞)

​ 3. 取反函式, x

=ln(p1p)ex=1ppp=11+ex 這樣,就得到了sigmoid函式。

(以上省略其他關於最大熵的原因,及相關推導)

[總結]

邏輯迴歸對於每一個樣本n被分為某一類的概率,輸出:p(xn)=11+edj=1θjxnj

​ 用於分類時,通過採用極大似然估計進行分類,即選擇類別更大的p(x)。

1.2什麼是多項邏輯迴歸?

從上述可知,邏輯迴歸只適用於二分類問題。為了使它能擴充套件到多分類問題,我們將sigmoid函式,換成softmax函式。

softmax(x)=eick=1ek

(其中,ei代表第i類,c代表一共的類別數)

應用到多項邏輯迴歸中是:

p(y=i|x)=exp{ai}cn=1exp{an} ai=dj=1θijxj

(其中,θj代表第j類的引數值,p(y=j|x)代表對於樣本X,將其分為j類的概率)

[證明] :推匯出softmax函式

每一類的概率pn 取值範圍在(0,1) , 而θTX 的取值範圍在(,+) ,我們需要選擇一個遞增函式,將θTX 對映到pn

首先,不考慮pn的取值範圍為(0,1),

假設ln(pn)=θTXpn=exp{θTX}

再對pn進行歸一化處理就可以了。

[總結]

多項邏輯迴歸,每一個樣本對應分到每一類的概率:

p(y=i|x)=exp{ai}

相關推薦

機器學習筆記邏輯迴歸邏輯迴歸

1.邏輯迴歸與多項邏輯迴歸 1.1什麼是邏輯迴歸? 邏輯迴歸,可以說是線上性迴歸的基礎上加上一個sigmoid函式,將線性迴歸產生的值歸一化到[0-1]區間內。sigmoid函式如下: ​

機器學習筆記 邏輯斯蒂迴歸LR

本文是在學習完李航老師的《統計學習方法》後,在網上又學習了幾篇關於LR的部落格,算是對LR各個基礎方面的一個回顧和總結。 一 簡述   邏輯斯蒂迴歸是一種對數線性模型。經典的邏輯斯蒂迴歸模型(LR

機器學習學習筆記:線性回歸、邏輯回歸

ros XA andrew ID learn 給定 編程練習 size func 《機器學習》學習筆記(一):線性回歸、邏輯回歸 本筆記主要記錄學習《機器學習》的總結體會。如有理解不到位的地方,歡迎大家指出,我會努力改正。 在學習《機器學習》時,我主要是

機器學習筆記線性迴歸模型

一、線性迴歸模型 (一)引入—梯度下降演算法 1. 線性假設: 2. 方差代價函式:   3. 梯度下降:   4. : learning rate (用來控制我們在梯度下降時邁出多大的步子,值較大,梯度下降就很迅速) 值過大易造成無法收斂到minimum(每一步邁更大)

機器學習筆記

get 實現 mach 理論 怎樣 算法 分類 AI 結構 1、基礎概念   什麽是機器學習?   機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的

模式識別機器學習筆記

本系列博文是對研一課程《模式識別與機器學習》的隨堂筆記,希望將老師所講的與自己的見解記錄下來,方便加深自己的理解以及以後複習檢視,筆記完全按照老師所講順序,歡迎交流。 一、模式識別與機器學習的基本問題 機器學習主要解決以下四類問題: 1.監督學習:指的是訓練的資料既包括特徵(feat

機器學習筆記:最小二乘法和梯度下降

一、最小二乘法 1.一元線性擬合的最小二乘法 先選取最為簡單的一元線性函式擬合助於我們理解最小二乘法的原理。 要讓一條直接最好的擬合紅色的資料點,那麼我們希望每個點到直線的殘差都最小。 設擬合直線為

吳恩達機器學習筆記,含作業及附加題答案連結

吳恩達機器學習筆記(一) 標籤(空格分隔): 機器學習 吳恩達機器學習筆記一 一機器學習簡介 機器學習的定義 監督學習 非監督學習

深入理解java虛擬機器學習筆記

Java記憶體區域模型 Java虛擬機器在執行Java程式的過程中,會把它所管理的記憶體區域劃分為若干個不同的資料區域,這些區域一般被稱為執行時資料區(Runtime Data Area),也就是我們常說的JVM記憶體。 執行時資料區通常包括以下這幾個部分: 程式計數器(Program Counte

深入理解JAVA虛擬機器學習筆記JVM記憶體模型

一、JVM記憶體模型概述 JVM記憶體模型其實也挺簡單的,這裡先提2個知識點: 1、組成:java堆,java棧(即虛擬機器棧),本地方法棧,方法區和程式計數器。 2、是否共享:其中方法區和堆區是執行緒共享的,虛擬機器棧,本地方法棧和程式計數器是執行緒私有的,也稱執行緒

機器學習西瓜書學習筆記---------模型評估選擇

1、經驗誤差與過擬合 經驗誤差:一般的,我們把學習器的實際預測輸出與樣本的真實輸出之間的差異稱為“誤差”,學習器在訓練集上的誤差稱為“訓練誤差”或“經驗誤差”,在新樣本上的誤差稱為“泛化誤差”;         通常我們想要的一個學習器是能夠通過訓練樣本的學習後能較準確的

Java虛擬機器學習筆記:記憶體區域HotSpot虛擬機器物件探祕

執行時資料區域 Java虛擬機器在執行Java程式的過程中會把它所管理的記憶體劃分為若干個不同的資料區域。這些區域都有各自的用途,以及建立和銷燬的時間,有的區域隨著虛擬機器程序的啟動而存在,有些區域則依賴使用者執行緒的啟動和結束而建立和銷燬。根據《Java虛擬機

機器學習筆記:極大似然估計貝葉斯估計的區別

似然函式: 樣本資料的分佈和在引數為下的概率分佈的相似程度 極大似然估計:只要求出符合樣本資料分佈的最優引數即可,不需要考慮先驗。 貝葉斯估計   MAP(最大後驗估計)

機器學習筆記----線性方程擬合的梯度下降法

機器學習 引言 定義:一個年代近一點的定義,由 Tom Mitchell 提出,來自卡內基梅隆大學,Tom 定義的機器學習是,一個好的學習問題定義如下,他說,一個程式被認為能從經驗 E 中學習,解決任務 T,達到效能度量值P,當且僅當,有了經驗 E 後,

機器學習筆記——基於單層決策樹的AdaBoost演算法實踐

                             基於單層決策樹的AdaBoost演算法實踐    最近一直在學習周志華老師的西瓜書,也就是《機器學習》,在第八章整合學習中學習了一個整合學習演算法,即AdaBoost演算法。AdaBoost是一種迭代演算法,其核心思想

機器學習筆記:關於隱含馬爾科夫模型

這篇文章是我在看完吳軍老師的數學之美一書中關於隱馬爾科夫模型之後所寫,旨在記錄一下自己對隱馬爾科夫模型的認識, 隱馬爾科夫模型我在很早之前就有所接觸,在學習語音識別的時候,會涉及到隱馬爾科夫模型,當時是完全不懂,現在雖然還是一知半解,因為沒有再次去使用,接下來的主攻方向是機器視覺,對隱馬爾可

周志華機器學習筆記

新人一枚,既是機器學習的初學者,也是首次發部落格。謹以此記錄我的學習體會,做一些總結。望與大家共同學習、共同進步。文中若有內容錯誤或有措詞不嚴謹之處,望大家不吝指出。謝謝! 機器學習中的基本概念 基本術語 根據上圖我們可以用一個三維空間來了解以

機器學習筆記樸素貝葉斯的Python程式碼實現

上研究生的時候,一心想讀生物資訊學的方向,由此也選修了生物數學,計算生物學等相關課程。給我印象最深的是給我們計算生物學的主講老師,他北大數學系畢業,後來做起了生物和數學的交叉學科研究。課上講的一些演算法比如貝葉斯,馬爾科夫,EM等把我給深深折磨了一遍。由於那時候

機器學習筆記微積分

微積分 @(Machine Learning)[微積分, 概率論] 1.夾逼定理: 當x∈U(x0,r)時,有g(x)≤f(x)≤h(x)成立,並且limx→x0g(x)=A,limx→x0h(x)=A那麼:limx→x0f(x)=A 2.極限存

機器學習筆記:梯度下降演算法,隨機梯度下降,正規方程

一、符號解釋 M 訓練樣本的數量 x 輸入變數,又稱特徵 y 輸出變數,又稱目標 (x, y) 訓練樣本,對應監督學習的輸入和輸出 表示第i組的x   表示第i組的y h(x)表示對應演算法的函式 是