大學生錄取預測——邏輯迴歸

阿新 • • 發佈：2019-02-14

Dataset

每年高中生和大學生都會申請進入到各種各樣的高校中去。每個學生都有一組唯一的考試分數，成績和背景資料。錄取委員會根據這個資料決定是否接受這些申請者。在這種情況下一個二元分類演算法可用於接受或拒絕申請，邏輯迴歸是個不錯的方法。

資料集admissions.csv包含了1000個申請者的資訊，特徵如下：

gre - Graduate Record Exam（研究生入學考試）, a generalized test for prospective graduate students（一個通用的測試未來的研究生）, continuous between 200 and 800.
gpa

- Cumulative grade point average（累積平均績點）, continuous between 0.0 and 4.0.
admit - Binary variable, 0 or 1, where 1 means the applicant was admitted to the program.

Use Linear Regression To Predict Admission

這是原本的資料，admit的值是0或者1。可以發現”gpa”和”admit”並沒有線性關係，因為”admit”只取兩個值。

import pandas
import matplotlib.pyplot 
 as plt
admissions = pandas.read_csv("admissions.csv")
plt.scatter(admissions["gpa"], admissions["admit"])
plt.show()

這裡寫圖片描述

這是通過線性迴歸模型預測的admit的值，發現admit_prediction 取值範圍較大，有負值，不是我們想要的。

# The admissions DataFrame is in memory

# Import linear regression class
from sklearn.linear_model import LinearRegression

# Initialize a linear regression model
model = LinearRegression()

# Fit model
model.fit(admissions[['gre', 'gpa']] 
, admissions["admit"])

# Prediction of admission
admit_prediction = model.predict(admissions[['gre', 'gpa']])

# Plot Estimated Function
plt.scatter(admissions["gpa"], admit_prediction)

這裡寫圖片描述

因此我們期望構造一個模型，能夠給我們一個接受（admission）的概率，並且這個概率取值在[0~1]，然後我們根據銀行信用卡批准——模型評估ROC&AUC這篇文章的方法來選擇合適的閾值進行分類。

The Logit Function

邏輯迴歸是一個流行的分類方法,它將輸出限制在0和1之間。這個輸出可以被視為一個給定一組輸入某個事件的概率,就像任何其他分類方法。

logit function是邏輯迴歸的基礎，這個函式的形式如下：
觀察一下logit function的樣子：

# Logistic Function
def logit(x):
    # np.exp(x) raises x to the exponential power, ie e^x. e ~= 2.71828
    return np.exp(x) / (1 + np.exp(x)) 

# Linspace is as numpy function to produced evenly spaced numbers over a specified interval.
# Create an array with 50 values between -6 and 6 as t
t = np.linspace(-6,6,50, dtype=float)

# Get logistic fits
ylogit = logit(t)

# plot the logistic function
plt.plot(t, ylogit, label="logistic")
plt.ylabel("Probability")
plt.xlabel("t")
plt.title("Logistic Function")
plt.show()
a = logit(-10)
b = logit(10)
'''
a:4.5397868702434395e-05
b:0.99995460213129761
'''

這裡寫圖片描述

The Logistic Regression

邏輯迴歸就是將線性迴歸的輸出當做Logit Function的輸入然後產生一個輸出當做最終的概率。其中β0是截距，其他的βi是斜率，也是特徵的係數。
與線性模型一樣，我們想要找到最優的βi的值使得預測值與真實值之間的誤差最小。通常用來最小化誤差的方法是最大似然法和梯度下降法。

Model Data

下面進行邏輯迴歸實驗，每次進行訓練測試集劃分之前，需要將樣本資料進行洗牌，這樣抽樣具有隨機性。看到最後的gre和預測值的關係發現，當gre越大時，被接受的概率越大，這是符合實際情況的。

from sklearn.linear_model import LogisticRegression

# Randomly shuffle our data for the training and test set
admissions = admissions.loc[np.random.permutation(admissions.index)]

# train with 700 and test with the following 300, split dataset 
num_train = 700
data_train = admissions[:num_train]
data_test = admissions[num_train:]

# Fit Logistic regression to admit with gpa and gre as features using the training set
logistic_model = LogisticRegression()
logistic_model.fit(data_train[['gpa', 'gre']], data_train['admit'])

# Print the Models Coefficients
print(logistic_model.coef_)
'''
[[ 0.38004023  0.00791207]]
'''

# Predict the chance of admission from those in the training set
fitted_vals = logistic_model.predict_proba(data_train[['gpa', 'gre']])[:,1]
fitted_test = logistic_model.predict_proba(data_test[['gpa', 'gre']])[:,1]

plt.scatter(data_test["gre"], fitted_test)
plt.show()

這裡寫圖片描述

Predictive Power

這裡有個用法需要提一下，accuracy_train = (predicted == data_train[‘admit’]).mean()中predicted == data_train[‘admit’]得到是一個布林型array,在計算mean()時，會將True記作1，False記作0，然後求均值。但是在list中是不行的，list物件的布林型資料沒有mean()這個函式。

# .predict() using a threshold of 0.50 by default
predicted = logistic_model.predict(data_train[['gpa','gre']])

# The average of the binary array will give us the accuracy
accuracy_train = (predicted == data_train['admit']).mean()

# Print the accuracy
print("Accuracy in Training Set = {s}".format(s=accuracy_train))
'''
# 這種輸出方式也很好
Accuracy in Training Set = 0.7785714285714286
'''
# Percentage of those admitted
percent_admitted = data_test["admit"].mean() * 100

# Predicted to be admitted
predicted = logistic_model.predict(data_test[['gpa','gre']])

# What proportion of our predictions were true
accuracy_test = (predicted == data_test['admit']).mean()

sklearn中的邏輯迴歸的閾值預設設定為0.5

Admissions ROC Curve

邏輯迴歸中的predict_proba這個函式返回的不是類標籤，而是接受的概率，這可以允許我們自己修改閾值。首先我們需要作出它的ROC曲線來觀察合適閾值：

from sklearn.metrics import roc_curve, roc_auc_score

# Compute the probabilities predicted by the training and test set
# predict_proba returns probabilies for each class.  We want the second column
train_probs = logistic_model.predict_proba(data_train[['gpa', 'gre']])[:,1]
test_probs = logistic_model.predict_proba(data_test[['gpa', 'gre']])[:,1]
# Compute auc for training set
auc_train = roc_auc_score(data_train["admit"], train_probs)

# Compute auc for test set
auc_test = roc_auc_score(data_test["admit"], test_probs)

# Difference in auc values
auc_diff = auc_train - auc_test

# Compute ROC Curves 
roc_train = roc_curve(data_train["admit"], train_probs)
roc_test = roc_curve(data_test["admit"], test_probs)

# Plot false positives by true positives
plt.plot(roc_train[0], roc_train[1])
plt.plot(roc_test[0], roc_test[1])

這裡寫圖片描述

可以看到ROC曲線開始非常的陡峭，慢慢地變得平緩。測試集的AUC值是0.79小於訓練集的AUC值0.82，沒有過擬合.這些跡象表明我們的模型可以根據gre和gpa來預測是否錄取了。
我們也可以通過銀行信用卡批准——模型評估ROC&AUC這篇文章中提到的精確度，查準率，查全率等度量標準來衡量模型的好壞。

大學生錄取預測——邏輯迴歸

Dataset 每年高中生和大學生都會申請進入到各種各樣的高校中去。每個學生都有一組唯一的考試分數，成績和背景資料。錄取委員會根據這個資料決定是否接受這些申請者。在這種情況下一個二元分類演算法可

利用python實現梯度下降和邏輯迴歸原理(Python詳細原始碼：預測學生是否被錄取)

本案例主要是：建立邏輯迴歸模型預測一個學生是否被大學錄取，沒有詳細介紹演算法推到，讀者可查閱其他部落格理解梯度下降演算法的實現：https://blog.csdn.net/wangliang0633/article/details/79082901 資料格式如下：第三列表示錄取狀態，0--

預測概率的邏輯迴歸演算法

原創： wk Refinitiv創新實驗室ARGO 10月1日 "本篇文章包含部分數學公式，閱讀時間約10分鐘" 曾有報道說，性感女神安吉麗娜朱莉因確認攜帶致癌基因，患乳腺癌概率為87%，所以她選擇主動切除乳腺。當時這篇報道給我的震驚在於女神的果斷，

邏輯迴歸預測貸款使用者是否會逾期

學習筆記（二）邏輯迴歸預測貸款使用者是否會逾期演算法實踐能力的【整個思路】：構建模型——>模型融合——>模型評估——>交叉驗證——>模型調參——>特徵工程。【遵循】一次只做一件事，【先做再優化】的思路。每一個過程在完成任務的前提下，都可以拓展學習。【期望目

通過使用各種演算法（線性迴歸，邏輯迴歸，隨機森林，繼承演算法）預測泰坦尼克號上的某個人是否獲救

Python原始碼: #!/usr/bin/env python # encoding: utf-8 """ @Company：華中科技大學電氣學院聚變與等離子研究所 @version: V1.0 @author: Victor @contact: [email protected]

邏輯迴歸之考試是否錄取

一、其中LogisticRegression是自己寫的模組，該模組是波士頓房價預測裡的程式碼波士頓房價預測二、完全程式碼 import matplotlib.pyplot as plt import pandas as pd import numpy as np from

邏輯迴歸之癌症預測

import numpy as np from sklearn.datasets import load_breast_cancer def feature_scalling(X): mean = X.mean(axis=0) std = X.std(axis=0) re

客戶貸款逾期預測[1]-邏輯迴歸模型

任務預測貸款客戶是否會逾期，status為響應變數，有0和1兩種值，0表示未逾期，1表示逾期。程式碼： # -*- coding: utf-8 -*- """ Created on Thu Nov 15 13:02:11 2018

機器學習--邏輯迴歸及乳腺癌預測

邏輯迴歸演算法是用來解決分類問題的演算法。邏輯迴歸模型由sklearn.linear_model.LogisticRegression實現例項：乳腺癌預測 a. 模型訓練 # 載入自帶乳腺癌資料集 from sklearn.datasets import lo

tensorflow實現泰坦尼克號生存率預測（邏輯迴歸）

目錄 1 邏輯迴歸介紹其實我們可以把邏輯迴歸當成只有一層的神經網路。關於邏輯迴歸的具體知識可以參考我的上一邊部落格，地址：https://mp.csdn.net/postedit/82929291。使用交叉熵損失函式

邏輯迴歸模型實踐-貸款逾期預測

任務預測貸款使用者是否會逾期，status為響應變數，有0和1兩種值。程式碼： # -*- coding: utf-8 -*- """ Created on Thu Nov 15 13:02:11 2018 @author: keepi """ i

R語言-邏輯迴歸+主成分分析-員工離職預測訓練賽

題目：員工離職預測訓練賽網址：http://www.pkbigdata.com/common/cmpt/員工離職預測訓練賽_競賽資訊.html 要求：資料主要包括影響員工離職的各種因素（工資、出差、工作環境滿意度、工作投入度、是否加班、是否升職、工資提升比例等）以及員工

Spark中元件Mllib的學習27之邏輯迴歸-多元邏輯迴歸，較大資料集，帶預測準確度計算

2.程式碼： /** * @author xubo * ref:Spark MlLib機器學習實戰 * more code:https://github.com/xubo245/SparkLearning

十大經典預測演算法（二）----邏輯迴歸

一、邏輯迴歸概念　　線性迴歸可以擬合X與Y之間的關係，但迴歸模型中Y值是連續的，如果換成一個二分類標籤，Y只能取兩個值0、1，這時候就不能用線性迴歸了，這樣就有了邏輯迴歸。　　針對Y的值域在區間[0-1]的問題，我們不能尋找到一條完美曲線，用於擬合二分類模型，但我們可以尋找一條完美的S型曲線，S型曲線