1. 程式人生 > >《統計學習方法筆記》——Logistic迴歸

《統計學習方法筆記》——Logistic迴歸

Logistic迴歸簡介

假設有一些資料點,我們利用一條直線對這些資料點進行擬合(該線稱為最佳擬合直線),這個擬合過程就稱為迴歸。利用Logistic進行迴歸的主要思想:根據現有資料對分類邊界線建立迴歸公式,以此進行分類。

演算法流程

1.優化目標函式

需要的函式應該是可以接受所有的輸入然後預測出類別。
例如,在兩類的情況下,上述函式輸出0或1。海維塞德階躍函式或者直接稱為單位階躍函式滿足這一性質。然而,海維塞德階躍函式存在以下問題:該函式在跳躍點上從0瞬間跳躍到1,這個瞬間過程很難處理。因此,我們一般選擇Sigmoid函式。Sigmoid函式具體公式如下:

σ(z)=11+ez
這裡寫圖片描述

當x為0時。sigmoid函式值為0.5。隨著x的增大,sigmoid函式值趨近於1;而隨著x的減小,sigmoid函式值趨近於0。當橫座標足夠大時,sigmoid函式看起來很像一個階躍函式。
為了實現logistic迴歸分類器,可以在每個特徵上都乘以一個迴歸係數,然後吧所有的結果值想家,將這個綜合帶入sigmoid函式中,進而得到一個範圍在0-1之間的數值。任何大於0.5的資料被分入1類,小於0.5即被歸入0類。所以Logistic迴歸也可以被看成是一種概率估計。

2.基於最優化方法的最佳迴歸係數確定

sigmoid函式的輸入記為z,由下面公式得出:

z=w0x0+w1x1+w2x2+...+wnxn

如果採用向量的寫法,上述公式可以寫成z=wTx,它表示將這兩個數值向量對應元素相乘然後全部加起來得到z值。其中的向量x是分類器的輸入資料,向量w是我們要找到的最佳係數,從而使得分類器儘可能的精確。
  1. 梯度上升法
    梯度上升法基本的思想是:找到某函式的最大值,最好的方法是沿著該函式的梯度方向探尋。梯度上升演算法的迭代公式如下所示:

    w:=w+αwf(w)
    步長為α,該公式將一直被迭代執行,直到達到某個停止條件為止,比如迭代次數達到某個指定值或演算法達到某個可以允許的誤差範圍。
    梯度上升演算法用來求函式的最大值,而梯度下降演算法用來求函式的最小值。
  2. 隨機梯度上升
    梯度演算法一次處理所有資料,是“批處理”。
    梯度演算法問題:

    由於梯度上升演算法在每次更新迴歸係數時,都要遍歷真個資料集,當資料量很大時,該方法的計算複雜度就太高了。梯度上升演算法在迭代過程中係數會出現一些小的週期性波動,產生這種現象的原因是存在一些不能正確分類的樣本點(資料集並非線性可分)。而且收斂速度也需要加快。
    隨機梯度上升演算法一次僅使用一個樣本來更新迴歸系統,在新樣本到來時對分類器進行增量式更新,是“線上學習”演算法。
    隨機梯度上升演算法的改進:1)步長在每次迭代的時候都會調整,以此來緩解資料波動或高頻波動。
    2)隨機選擇樣本來更新迴歸係數。這樣減少週期性的波動。

優缺點及適用範圍

優點:計算代價不高,易於理解和實現。
缺點:容易欠擬合,分類精度可能不高。
適用資料型別:數值型和標稱型資料。

相關推薦

統計學習方法6—logistic迴歸和最大熵模型

目錄 logistic迴歸和最大熵模型 1. logistic迴歸模型 1.1 logistic分佈 1.2 二項logistic迴歸模型 1.3 模型引數估計

李航·統計學習方法筆記·第6章 logistic regression與最大熵模型(1)·邏輯斯蒂迴歸模型

第6章 logistic regression與最大熵模型(1)·邏輯斯蒂迴歸模型 標籤(空格分隔): 機器學習教程·李航統計學習方法 邏輯斯蒂:logistic 李航書中稱之為:邏輯斯蒂迴歸模型 周志華書中稱之為:對數機率迴歸模

統計學習方法筆記》——Logistic迴歸

Logistic迴歸簡介 假設有一些資料點,我們利用一條直線對這些資料點進行擬合(該線稱為最佳擬合直線),這個擬合過程就稱為迴歸。利用Logistic進行迴歸的主要思想:根據現有資料對分類邊界線建立迴歸公式,以此進行分類。 演算法流程 1.優化目標函式

統計學習方法》-邏輯迴歸筆記和python原始碼

邏輯迴歸(Logistic regression) 邏輯迴歸是統計學習中的經典分類方法。其多用在二分類{0,1}問題上。 定義1: 設X是連續隨機變數,X服從邏輯迴歸分佈是指X具有下列分佈函式與密度函式: 分佈函式屬於邏輯斯諦函式,其圖形是一條S形曲線。 定義2: 二

統計學習方法筆記9—EM演算法2

9.2 EM演算法的收斂性 收斂定理9.1 觀測資料的似然函式單調遞增 收斂定理9.2 EM演算法是收斂性包含對數似然函式序列的收斂性和關於引數估計序列的收斂性,即一定可以通過迭代發現似然函式的極值點。 9.3 EM演算法在高斯混合模型學習中的應用 9.3.1 高

【ML】統計學習方法筆記

S1 統計學習的基本假設是同類資料具有一定的統計規律性 特徵空間(featrure space)的每一維對應於一個特徵。有時假設輸入空間與特徵空間為相同空間,對他們不予區分。有時假設輸入空間與特徵空間為不同的空間,將例項從輸入空間對映到特徵空間。模型實際上都是定義在特徵空間上的。

李航—統計學習方法筆記(一)

什麼是獨立同分布? 百度: 在概率統計理論中,指隨機過程中,任何時刻的取值都為隨機變數,如果這些隨機變數服從同一分佈,並且互相獨立,那麼這些隨機變數是獨立同分布。如果隨機變數X1和X2獨立,是指X1的取值不影響X2的取值,X2的取值也不影響X1的取值且隨機變數X1和X2服從同一分佈,這意味著X1和X2具有

統計學習方法筆記1

第一章統計學習方法概論 1.1統計學習 統計學習特點:計算機網路平臺,資料驅動,構建模型,預測分析 統計學習物件:data,具有一定統計規律的資料 統計學習目的:預測分析 統計學習方法:模型,策略,演算法; 統計學習方法的步驟:

統計學習方法筆記7.1

第七章 支援向量機 支援向量機(support vector machines,SVM)是一種二類分類模型,基本模型是定義在特徵空間上的間隔最大的線性分類器。 7.1 線性可分支援向量機與硬間隔最大化 7.1.1 線性可分支援向量機 支援向量機的學習都是在特徵空

統計學習方法筆記(一):K近鄰法的實現:kd樹

  實現k近鄰演算法時,首要考慮的問題是如何對訓練資料進行快速的k近鄰搜尋。這點在特徵空間的維數大於訓練資料容量時尤為重要。 構造kd樹   kd 樹是一種對k為空間中的例項點進行儲存的一邊對其進行快速檢索的樹形資料結構。kd樹是二叉樹,表示對k維空間的一個劃分(parti

統計學習方法筆記二---感知機(Perceptron Learning Algorithm,PLA)

簡介 感知機(perceptron)是二分類的線性分類模型,其輸入為例項的特徵向量,輸出為例項的類別,取+1和-1二值。感知機對應於輸入空間(特徵空間)中將例項劃分為正負兩類的分離超平面,屬於判別模型,解決的問題是分類問題。 目標/目的:求出將訓練資料進行線

統計學習方法筆記(三)K近鄰演算法

K近鄰法(KNN)是一種基本的分類和迴歸的方法,KNN的基本思想是給出一定數量帶有標籤的訓練樣本,使用這些訓練樣本將特徵空間劃分成許多的子空間,當一個新的測試樣本進來以後,這個測試樣本一定會落在一個超矩形區域內部,然後找到距離這個測試樣本最近的K個訓練樣本,用這些訓練樣本的

統計學習方法筆記(三)統計學習方法簡介

正則化與交叉驗證 前文所述的模型選擇只能大體選擇出一類較好的模型,即利用訓練資料集學習模型,沒有考慮到測試誤差,而正則化與交叉驗證的提出,則加入了測試誤差的考量,因此,這兩種方法用來選擇具體模型。 正則化 正則化是結構風險最小化策略的實現,其是在經驗風

統計學習方法筆記(一)統計學習方法簡介

統計學習概論: 一、統計學習 執行統計學習相關方法的前提:假設同類資料具有一定的統計規律性 定義:計算機基於資料構建相應的概率統計模型,利用模型對資料進行預測與分析 方法分類:監督學習、非監督

李航-統計學習方法筆記(一):統計學習方法概論

對象 統計學 技術分享 精確 結束 人的 發生 abs 速度 本系列筆記,主要是整理統計學習方法的知識點和代碼實現各個方法,來加強筆者對各個模型的理解,為今年找到好工作來打下基礎。 計劃在一個月內更新完這本書的筆記,在此立一個flag: 從2019/2/17開始 到 20

統計學習方法-李航-筆記總結】六、邏輯斯諦迴歸和最大熵模型

本文是李航老師《統計學習方法》第六章的筆記,歡迎大佬巨佬們交流。 主要參考部落格: http://www.cnblogs.com/YongSun/p/4767100.html https://blog.csdn.net/tina_ttl/article/details/53519391

統計學習方法|Logistic迴歸

01 邏輯斯諦分佈 logistic迴歸是一種經典的分類演算法,模型形式如下(二分類),其中x服從邏輯斯諦分佈: 什麼叫服從邏輯斯諦分佈呢? 直觀點,分佈函式和密度函式長這樣: 邏輯斯諦迴歸模型有什麼特點呢? 我們來看邏輯斯諦分佈函式的形狀,橫軸範圍在正負無窮

統計學習方法(李航)》邏輯斯蒂迴歸與最大熵模型學習筆記

作者:jliang https://blog.csdn.net/jliang3   1.重點歸納 1)線性迴歸 (1)是確定兩種或以上變數間相互依賴的定量關係的一種統計分析方法。 (2)模型:y=wx+b (3)誤差函式: (4)常見求解方法 最小

邏輯斯諦迴歸與最大熵模型-《統計學習方法學習筆記

 0. 概述: Logistic迴歸是統計學中的經典分類方法,最大熵是概率模型學習的一個準則,將其推廣到分類問題得到最大熵模型,logistic迴歸模型與最大熵模型都是對數線性模型。 本文第一部分主

邏輯斯諦迴歸Logistic regression)—《統計學習方法

邏輯斯諦迴歸(Logistic regression)是統計學習領域的一個經典分類方法,學習李航教授的《統計學習方法》將筆記和一些感悟記錄下來; 1 邏輯斯諦分佈(logistic distribution)   為一個連續型的隨機變數,分佈函式F和密度