1. 程式人生 > >資料探勘-Logistic迴歸建模

資料探勘-Logistic迴歸建模

Logistic迴歸建模

       Logistic迴歸屬於概率型非線性迴歸,對於二分類的Logistic迴歸,因變數y只有“是、否”兩個取值,記為“是、否“兩個取值,記為0和1。假設在自變數想,x1,x2.......,xp  作用下,y取“是”的概率是p,則取“否”的概率是1-p,研究的是當y取“是”發生的概率p與自變數x1,x2,x3……, xp

的關係。

Logistic函式

  Logistic迴歸模型中的因變數只有1-0(如是和否、發生和不發生)兩種取值。假設在p個獨立自變數x1,x2……xp  作用下,記y取1的概率是p=P(y=1|X),取0的概率是1-p,取1和0的概率之比p/1-p (odds),稱為事件的優勢比,對優勢比取自然對數即得Logistic變換Logit(p)=Ln(p/1-p)。

令Logit(p)=Ln(p/1-p)=z,則p=1/1+e-z  即為Logistic函式。當p在(0,1)之間變化時,odds的取值範圍是,則Ln(p/1-p)的取值範圍為

Logistic迴歸模型

  Logistic迴歸模型是建立在Ln(p/1-p)與自變數的線性迴歸模型

 Logistic迴歸模型為:

         

Logistic迴歸建模步驟

Logistic迴歸模型的建模步驟如下圖

 

1)  根據分析目的設定指標變數(因變數和自變數),然後收集資料。

2)  Y取1的概率是p=P(y=1|X),取0的概率為1-p。用Ln(p/1-p)和自變數列出線性迴歸方程,估計出模型中的迴歸係數。

3)  進行模型檢驗:根據輸出的方差分析表中的F值和p值來檢驗該回歸方程是否顯著,如果p值小於顯著性水平 則模型通過檢驗,可以進行下一步迴歸係數的檢驗;否則要重新選擇指標變數,重新建立迴歸方程。

4)  進行迴歸係數的顯著性檢驗:在多元線性迴歸中,迴歸方程顯著並不意味著每個自變數對y的影響都顯著,為了從迴歸方程中剔除那些次要的、可有可無的變數,重新建立更為簡單有效的迴歸方程,需要對每一個自變數進行顯著性檢驗,檢驗結果由引數估計表得到。採用逐步迴歸法,首先剔除掉最不顯著的因變數,重新構造迴歸方程,一直到模型和參與的迴歸係數都通過檢驗。

5)  模型應用:輸入自變數的取值,就可以得到預測變數的值,或者根據預測變數的值去控制自變數的取值。

相關推薦

資料-Logistic迴歸建模

Logistic迴歸建模        Logistic迴歸屬於概率型非線性迴歸,對於二分類的Logistic迴歸,因變數y只有“是、否”兩個取值,記為“是、否“兩個取值,記為0和1。假設在自變數想

機器學習與資料-logistic迴歸及手寫識別例項的實現

本文主要介紹logistic迴歸相關知識點和一個手寫識別的例子實現 一、logistic迴歸介紹: logistic迴歸演算法很簡單,這裡簡單介紹一下: 1、和線性迴歸做一個簡單的對比 下圖就是一個簡單的線性迴歸例項,簡單一點就是一個線性方程表示 (就是用來描述自變數和因

【Mark Schmidt課件】機器學習與資料——非線性迴歸

本課件主要內容包括: 魯棒迴歸 體育運動中的非線性級數 自適應計數/距離法 線性模型的侷限性 非線性特徵變換 一般多項式特徵(d = 1) 英文原文課件下載地址: http://page5.dfpan

資料 R 迴歸分析

List item 迴歸分析是統計的核心,通常指使用一個或多個預測變數來預測響應變數。 迴歸分析也通常選擇與響應變數有關的變數來作為解釋變數,以此來描述兩者之間的關係。也可以生成一個等式,用解釋變數來解釋響應變數。 在R 中封裝了lm()函式來實現單變數,多變量回歸。 R中符號的說明

Python資料實戰——迴歸

一、迴歸分析(Regression Analysis)    研究自變數與因變數之間關係形式的分析方法,它主要是通過建立 因變數y 與影響它的自變數Xi(i=1,2,3....)之間的迴歸模型,來預測 因變數y 的發展趨勢。二、迴歸分析的分類2.1線性迴歸分析:簡單線性迴歸、

資料經典演算法:Logistic(邏輯迴歸) python和sklearn實現

Logistic雖然不是十大經典演算法之一,但卻是資料探勘中常用的有力演算法,所以這裡也專門進行了學習,以下內容皆為親自實踐後的感悟和總結(Logistic原理、程式碼實現和優化、真實樣例資料、sklearn實現)。為了記錄的比較清楚,所以內容可能有點多,但都比較淺顯,下面進

資料演算法-Logistic迴歸

(一)認識Logistic迴歸(LR)分類器 首先,Logistic迴歸雖然名字裡帶“迴歸”,但是它實際上是一種分類方法,主要用於兩分類問題,利用Logistic函式(或稱為Sigmoid函式),自變數取值範圍為(-INF, INF),自變數的取值範圍為(0

資料領域中的分類和迴歸區別是什麼?

先簡單的說下吧,下面給出實際例子 類和迴歸的區別在於輸出變數的型別。定量輸出稱為迴歸,或者說是連續變數預測;定性輸出稱為分類,或者說是離散變數預測。舉個例子:預測明天的氣溫是多少度,這是一個迴歸任務;預測明天是陰、晴還是雨,就是一個分類任務。  拿支援向量機舉個例子,分類問題

第六章 資料建模過程

資料預處理 資料讀寫 JSON 資料結構 import json匯入json包。json.loads(josn格式的物件) 返回一個字典 ,json.load(檔名)讀取檔案.json.dumps(josn格式的物件)寫成字串,json.dump(josn格式的物件,檔名)

用 WEKA 進行資料 (1)簡介和迴歸

簡介 什麼是 資料探勘?您會不時地問自己這個問題,因為這個主題越來越得到技術界的關注。您可能聽說過像 Google 和 Yahoo! 這樣的公司都在生成有關其所有使用者的數十億的資料點,您不禁疑惑,“它們要所有這些資訊幹什麼?”您可能還會驚奇地發現 Walmart 是最為先進的進行資料探勘並將結果

吳裕雄 資料與分析案例實戰(6)——線性迴歸預測模型

# 工作年限與收入之間的散點圖# 匯入第三方模組import pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt # 匯入資料集income = pd.read_csv(r'F:\\python_Data_analysis_and

【Python資料課程】五.線性迴歸知識及預測糖尿病例項

        希望這篇文章對你有所幫助,尤其是剛剛接觸資料探勘以及大資料的同學,同時準備嘗試以案例為主的方式進行講解。如果文章中存在不足或錯誤的地方,還請海涵~        同時這篇文章是我上課的內容,所以參考了一些知識,強烈推薦大家學習斯坦福的機器學習Ng教授課程和Sc

【python資料課程】十九.鳶尾花資料集視覺化、線性迴歸、決策樹花樣分析

這是《Python資料探勘課程》系列文章,也是我這學期上課的部分內容。本文主要講述鳶尾花資料集的各種分析,包括視覺化分析、線性迴歸分析、決策樹分析等,通常一個數據集是可以用於多種分析的,希望這篇文章對大

MADlib——基於SQL的資料解決方案(17)——迴歸之Cox比例風險迴歸

一、Cox比例風險迴歸簡介        Cox比例風險迴歸模型(Cox’s proportional hazards regression model),簡稱Cox迴歸模型,由英國統計學家D.R.Cox於1972年提出,主要用於腫瘤和其它慢性病的預後分析,也可用於佇列研究的

【python資料課程】十八.線性迴歸及多項式迴歸分析四個案例分享

這是《Python資料探勘課程》系列文章,也是我這學期大資料金融學院上課的部分內容。本文主要講述和分享線性迴歸作業中,學生們做得比較好的四個案例,經過我修改後供大家學習,內容包括:    1.線性迴歸預測Pizza價格案例    2.線性迴歸分析波士頓房價案例    3.隨機

資料知識點七】相關與迴歸分析

相關與迴歸分析客觀現象之間的數量聯絡存在兩種不同型別:一種是函式關係,另一種是相關關係。當一個或幾個變數取一定的值時,另一個變數有確定值與之對應,這種關係稱為確定性的函式關係,一般把作為影響因素的變數稱為自變數,把發生對應變化的變數稱為因變數。當一個或幾個相互聯絡的變數取一定

【python資料課程】十六.邏輯迴歸LogisticRegression分析鳶尾花資料

今天是教師節,容我先感嘆下。祝天下所有老師教師節快樂,這是自己的第二個教師節,這一年來,無限感慨,有給一個人的指導,有給十幾個人講畢設,有幾十人的實驗,有上百人的課堂,也有給上千人的Python網路直播

python資料筆記】十八.線性迴歸及多項式迴歸分析四個案例分享

python資料探勘課程】十八.線性迴歸及多項式迴歸分析四個案例分享 #2018-03-30 18:24:56 March Friday the 13 week, the 089 day SZ SSMR 1.線性迴歸預測Pizza價格案例 2.線性迴歸分析波士頓房

資料十大經典演算法--CART: 分類與迴歸

一、決策樹的型別  在資料探勘中,決策樹主要有兩種型別: 分類樹 的輸出是樣本的類標。 迴歸樹 的輸出是一個實數 (例如房子的價格,病人呆在醫院的時間等)。 術語分類和迴歸樹 (CART) 包含了上述兩種決策樹, 最先由Breiman 等提出.分類樹和迴歸樹有些共同點和不同

資料,篩選,補充的廣義線性模型的---- LASSO 迴歸

Kaggle 網站(https://www.kaggle.com/)成立於 2010 年,是當下最流行的進行資料發掘和預測模型競賽的線上平臺。 與 Kaggle 合作的公司可以在網站上提出一個問題或者目標,同時提供相關資料,來自世界各地的電腦科學家、統計學家和建模愛好者, 將