資料探勘-Logistic迴歸建模
Logistic迴歸建模
Logistic迴歸屬於概率型非線性迴歸,對於二分類的Logistic迴歸,因變數y只有“是、否”兩個取值,記為“是、否“兩個取值,記為0和1。假設在自變數想,x1,x2.......,xp 作用下,y取“是”的概率是p,則取“否”的概率是1-p,研究的是當y取“是”發生的概率p與自變數x1,x2,x3……, xp
的關係。
Logistic函式
Logistic迴歸模型中的因變數只有1-0(如是和否、發生和不發生)兩種取值。假設在p個獨立自變數x1,x2……xp 作用下,記y取1的概率是p=P(y=1|X),取0的概率是1-p,取1和0的概率之比p/1-p (odds),稱為事件的優勢比,對優勢比取自然對數即得Logistic變換Logit(p)=Ln(p/1-p)。
令Logit(p)=Ln(p/1-p)=z,則p=1/1+e-z 即為Logistic函式。當p在(0,1)之間變化時,odds的取值範圍是,則Ln(p/1-p)的取值範圍為。
Logistic迴歸模型
Logistic迴歸模型是建立在Ln(p/1-p)與自變數的線性迴歸模型
Logistic迴歸模型為:
Logistic迴歸建模步驟
Logistic迴歸模型的建模步驟如下圖
1) 根據分析目的設定指標變數(因變數和自變數),然後收集資料。
2) Y取1的概率是p=P(y=1|X),取0的概率為1-p。用Ln(p/1-p)和自變數列出線性迴歸方程,估計出模型中的迴歸係數。
3) 進行模型檢驗:根據輸出的方差分析表中的F值和p值來檢驗該回歸方程是否顯著,如果p值小於顯著性水平 則模型通過檢驗,可以進行下一步迴歸係數的檢驗;否則要重新選擇指標變數,重新建立迴歸方程。
4) 進行迴歸係數的顯著性檢驗:在多元線性迴歸中,迴歸方程顯著並不意味著每個自變數對y的影響都顯著,為了從迴歸方程中剔除那些次要的、可有可無的變數,重新建立更為簡單有效的迴歸方程,需要對每一個自變數進行顯著性檢驗,檢驗結果由引數估計表得到。採用逐步迴歸法,首先剔除掉最不顯著的因變數,重新構造迴歸方程,一直到模型和參與的迴歸係數都通過檢驗。
5) 模型應用:輸入自變數的取值,就可以得到預測變數的值,或者根據預測變數的值去控制自變數的取值。
相關推薦
資料探勘-Logistic迴歸建模
Logistic迴歸建模 Logistic迴歸屬於概率型非線性迴歸,對於二分類的Logistic迴歸,因變數y只有“是、否”兩個取值,記為“是、否“兩個取值,記為0和1。假設在自變數想
機器學習與資料探勘-logistic迴歸及手寫識別例項的實現
本文主要介紹logistic迴歸相關知識點和一個手寫識別的例子實現 一、logistic迴歸介紹: logistic迴歸演算法很簡單,這裡簡單介紹一下: 1、和線性迴歸做一個簡單的對比 下圖就是一個簡單的線性迴歸例項,簡單一點就是一個線性方程表示 (就是用來描述自變數和因
【Mark Schmidt課件】機器學習與資料探勘——非線性迴歸
本課件主要內容包括: 魯棒迴歸 體育運動中的非線性級數 自適應計數/距離法 線性模型的侷限性 非線性特徵變換 一般多項式特徵(d = 1) 英文原文課件下載地址: http://page5.dfpan
資料探勘 R 迴歸分析
List item 迴歸分析是統計的核心,通常指使用一個或多個預測變數來預測響應變數。 迴歸分析也通常選擇與響應變數有關的變數來作為解釋變數,以此來描述兩者之間的關係。也可以生成一個等式,用解釋變數來解釋響應變數。 在R 中封裝了lm()函式來實現單變數,多變量回歸。 R中符號的說明
Python資料探勘實戰——迴歸
一、迴歸分析(Regression Analysis) 研究自變數與因變數之間關係形式的分析方法,它主要是通過建立 因變數y 與影響它的自變數Xi(i=1,2,3....)之間的迴歸模型,來預測 因變數y 的發展趨勢。二、迴歸分析的分類2.1線性迴歸分析:簡單線性迴歸、
資料探勘經典演算法:Logistic(邏輯迴歸) python和sklearn實現
Logistic雖然不是十大經典演算法之一,但卻是資料探勘中常用的有力演算法,所以這裡也專門進行了學習,以下內容皆為親自實踐後的感悟和總結(Logistic原理、程式碼實現和優化、真實樣例資料、sklearn實現)。為了記錄的比較清楚,所以內容可能有點多,但都比較淺顯,下面進
資料探勘演算法-Logistic迴歸
(一)認識Logistic迴歸(LR)分類器 首先,Logistic迴歸雖然名字裡帶“迴歸”,但是它實際上是一種分類方法,主要用於兩分類問題,利用Logistic函式(或稱為Sigmoid函式),自變數取值範圍為(-INF, INF),自變數的取值範圍為(0
資料探勘領域中的分類和迴歸區別是什麼?
先簡單的說下吧,下面給出實際例子 類和迴歸的區別在於輸出變數的型別。定量輸出稱為迴歸,或者說是連續變數預測;定性輸出稱為分類,或者說是離散變數預測。舉個例子:預測明天的氣溫是多少度,這是一個迴歸任務;預測明天是陰、晴還是雨,就是一個分類任務。 拿支援向量機舉個例子,分類問題
第六章 資料探勘建模過程
資料預處理 資料讀寫 JSON 資料結構 import json匯入json包。json.loads(josn格式的物件) 返回一個字典 ,json.load(檔名)讀取檔案.json.dumps(josn格式的物件)寫成字串,json.dump(josn格式的物件,檔名)
用 WEKA 進行資料探勘 (1)簡介和迴歸
簡介 什麼是 資料探勘?您會不時地問自己這個問題,因為這個主題越來越得到技術界的關注。您可能聽說過像 Google 和 Yahoo! 這樣的公司都在生成有關其所有使用者的數十億的資料點,您不禁疑惑,“它們要所有這些資訊幹什麼?”您可能還會驚奇地發現 Walmart 是最為先進的進行資料探勘並將結果
吳裕雄 資料探勘與分析案例實戰(6)——線性迴歸預測模型
# 工作年限與收入之間的散點圖# 匯入第三方模組import pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt # 匯入資料集income = pd.read_csv(r'F:\\python_Data_analysis_and
【Python資料探勘課程】五.線性迴歸知識及預測糖尿病例項
希望這篇文章對你有所幫助,尤其是剛剛接觸資料探勘以及大資料的同學,同時準備嘗試以案例為主的方式進行講解。如果文章中存在不足或錯誤的地方,還請海涵~ 同時這篇文章是我上課的內容,所以參考了一些知識,強烈推薦大家學習斯坦福的機器學習Ng教授課程和Sc
【python資料探勘課程】十九.鳶尾花資料集視覺化、線性迴歸、決策樹花樣分析
這是《Python資料探勘課程》系列文章,也是我這學期上課的部分內容。本文主要講述鳶尾花資料集的各種分析,包括視覺化分析、線性迴歸分析、決策樹分析等,通常一個數據集是可以用於多種分析的,希望這篇文章對大
MADlib——基於SQL的資料探勘解決方案(17)——迴歸之Cox比例風險迴歸
一、Cox比例風險迴歸簡介 Cox比例風險迴歸模型(Cox’s proportional hazards regression model),簡稱Cox迴歸模型,由英國統計學家D.R.Cox於1972年提出,主要用於腫瘤和其它慢性病的預後分析,也可用於佇列研究的
【python資料探勘課程】十八.線性迴歸及多項式迴歸分析四個案例分享
這是《Python資料探勘課程》系列文章,也是我這學期大資料金融學院上課的部分內容。本文主要講述和分享線性迴歸作業中,學生們做得比較好的四個案例,經過我修改後供大家學習,內容包括: 1.線性迴歸預測Pizza價格案例 2.線性迴歸分析波士頓房價案例 3.隨機
【資料探勘知識點七】相關與迴歸分析
相關與迴歸分析客觀現象之間的數量聯絡存在兩種不同型別:一種是函式關係,另一種是相關關係。當一個或幾個變數取一定的值時,另一個變數有確定值與之對應,這種關係稱為確定性的函式關係,一般把作為影響因素的變數稱為自變數,把發生對應變化的變數稱為因變數。當一個或幾個相互聯絡的變數取一定
【python資料探勘課程】十六.邏輯迴歸LogisticRegression分析鳶尾花資料
今天是教師節,容我先感嘆下。祝天下所有老師教師節快樂,這是自己的第二個教師節,這一年來,無限感慨,有給一個人的指導,有給十幾個人講畢設,有幾十人的實驗,有上百人的課堂,也有給上千人的Python網路直播
python資料探勘筆記】十八.線性迴歸及多項式迴歸分析四個案例分享
python資料探勘課程】十八.線性迴歸及多項式迴歸分析四個案例分享 #2018-03-30 18:24:56 March Friday the 13 week, the 089 day SZ SSMR 1.線性迴歸預測Pizza價格案例 2.線性迴歸分析波士頓房
資料探勘十大經典演算法--CART: 分類與迴歸樹
一、決策樹的型別 在資料探勘中,決策樹主要有兩種型別: 分類樹 的輸出是樣本的類標。 迴歸樹 的輸出是一個實數 (例如房子的價格,病人呆在醫院的時間等)。 術語分類和迴歸樹 (CART) 包含了上述兩種決策樹, 最先由Breiman 等提出.分類樹和迴歸樹有些共同點和不同
資料探勘,篩選,補充的廣義線性模型的---- LASSO 迴歸
Kaggle 網站(https://www.kaggle.com/)成立於 2010 年,是當下最流行的進行資料發掘和預測模型競賽的線上平臺。 與 Kaggle 合作的公司可以在網站上提出一個問題或者目標,同時提供相關資料,來自世界各地的電腦科學家、統計學家和建模愛好者, 將