使用TensorFlow實現邏輯迴歸（Titanic船員獲救專案實現）

阿新 • • 發佈：2018-12-15

Titanic船員獲救問題是kaggle上一個很經典的機器學習練手專案，很適合機器學習入門階段拿來練手以熟悉機器學習相關流程和知識。本篇文章用來記錄本人學習TensorFlow時，用Titanic問題來練習的筆記。

通常機器學習的常規流程可概括為三部曲：

1.熟悉原始資料，並對原始資料進行預處理。比如對缺失值的處理、非數值型資料的處理等。

2.從預處理完的資料中挑選特徵。挑選特徵是機器學習的關鍵，模型訓練的好壞和資料預處理以及特徵挑選有很大關係。因此發展出了特徵工程這個領域，專門來“對付”特徵挑選。

3.使用挑選好的特徵來訓練模型，並使用模型來預測測試集資料的結果。

根據以上流程，我使用TensorFlow分為六步來實現邏輯迴歸來預測Titanic船員獲救資料。

1.資料讀入及預處理

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

#讀取訓練資料
data = pd.read_csv("data/train.csv")
#檢視資料情況
data.info()

#將Sex列資料轉換為1或0
data['Sex'] = data['Sex'].apply(lambda s : 1 if s == 'male' else 0)
#缺失欄位填充為0
data = data.fillna(0)
#選擇以下特徵用於分類
dataset_X = data[['Sex', 'Age', 'Pclass', 'SibSp', 'Parch', 'Fare']]
dataset_X = dataset_X.as_matrix()

#兩種分類分別是倖存和死亡，‘Survived’欄位是其中一種分類的標籤
#新增加'Deceased'欄位表示第二種分類的標籤，取值為'Survived'取非
data['Deceased'] = data['Survived'].apply(lambda s : int(not s))
dataset_Y = data[['Deceased', 'Survived']]
dataset_Y = dataset_Y.as_matrix()
#在訓練資料中選擇20%資料用來進行測試
X_train, X_val, y_train, y_val = train_test_split(dataset_X, dataset_Y, test_size=0.2, random_state=1)

2.構建計算圖，採用邏輯迴歸進行構建


import tensorflow as tf
#宣告輸入資料佔位符
#shape引數的第一個元素為None,表示可以同時放入任意條記錄，每條記錄都有6個特徵
X = tf.placeholder(tf.float32, shape=[None, 6])
y = tf.placeholder(tf.float32, shape=[None, 2])

#宣告引數變數權重W和bias
W = tf.Variable(tf.random_normal([6, 2]), name='weights')
bias = tf.Variable(tf.zeros([2]), name='bias')

#構造前向傳播計算圖
y_pred = tf.nn.softmax(tf.matmul(X, W) + bias)

#代價函式
cross_entropy = -tf.reduce_sum(y * tf.log(y_pred + 1e-10), reduction_indices=1)
cost = tf.reduce_mean(cross_entropy)

#加入優化演算法：隨機梯度下降演算法
train_op = tf.train.GradientDescentOptimizer(0.001).minimize(cost)

3.構建訓練迭代過程

with tf.Session() as sess:
    tf.global_variables_initializer().run()
    
    #以下為訓練迭代，迭代100輪
    for epoch in range(100):
        total_loss = 0.
        for i in range(len(X_train)):
            feed = {X: [X_train[i]], y: [y_train[i]]}
            #通過session.run介面觸發執行
            _, loss = sess.run([train_op, cost], feed_dict=feed)
            total_loss += loss
        print('Epoch: %04d, total loss=%.9f' % (epoch + 1, total_loss))
    print('Training complete!')
    
    #評估準確率
    pred = sess.run(y_pred, feed_dict={X: X_val})
    correct = np.equal(np.argmax(pred, 1), np.argmax(y_val, 1))
    accuracy = np.mean(correct.astype(np.float32))
    print("Accuracy on validation set: %.9f" % accuracy)

4.執行訓練

執行訓練的每個epoch結果如下：

Epoch: 0001, total loss=2978.986924756
Epoch: 0002, total loss=1233.613931798
Epoch: 0003, total loss=1433.674743123
Epoch: 0004, total loss=1425.632846644
Epoch: 0005, total loss=1413.414649527
Epoch: 0006, total loss=1401.179366778
Epoch: 0007, total loss=1389.302903898
Epoch: 0008, total loss=1377.886010977
.....
Epoch: 0099, total loss=1165.767331228
Epoch: 0100, total loss=1165.626431299
Training complete!
Accuracy on validation set: 0.687150836

通過以上執行結果可以看出100輪訓練取得的準確率為0.687150836，我將epoch改為1000次後再執行，結果如下：

Epoch: 0001, total loss=1869.781745049
Epoch: 0002, total loss=1208.829884079
Epoch: 0003, total loss=1131.160947576
Epoch: 0004, total loss=1136.071243536
Epoch: 0005, total loss=1069.703441266
Epoch: 0006, total loss=1072.349545262
Epoch: 0007, total loss=1069.528637791
Epoch: 0008, total loss=1069.168335461
......
Epoch: 0999, total loss=970.790128045
Epoch: 1000, total loss=965.400083950
Training complete!
Accuracy on validation set: 0.770949721

由以上訓練的epoch次數不同而最終準確率的不同，可以感受到訓練次數對準確率的影響。

5.儲存和載入模型引數

變數的儲存和讀取時通過tf.train.Saver類來完成的，Saver物件的save()方法用於儲存，restore()方法用於讀取。這裡將變數儲存在save目錄下modle.ckpt中。

# 存檔入口
saver = tf.train.Saver()

with tf.Session() as sess:
    tf.global_variables_initializer().run()
    
    #以下為訓練迭代，迭代100輪
    for epoch in range(100):
        total_loss = 0.
        for i in range(len(X_train)):
            feed = {X: [X_train[i]], y: [y_train[i]]}
            #通過session.run介面觸發執行
            _, loss = sess.run([train_op, cost], feed_dict=feed)
            total_loss += loss
        print('Epoch: %04d, total loss=%.9f' % (epoch + 1, total_loss))
    print('Training complete!')
    
    #評估準確率
    pred = sess.run(y_pred, feed_dict={X: X_val})
    correct = np.equal(np.argmax(pred, 1), np.argmax(y_val, 1))
    accuracy = np.mean(correct.astype(np.float32))
    print("Accuracy on validation set: %.9f" % accuracy)
    #持久化儲存變數
    save_path = saver.save(sess, "save/model.ckpt")

6.使用模型對測試資料進行預測

Titanic問題是一個沒有獎金的比賽專案，那麼，訓練出的模型就需要在給出的測試資料上來進行預測，並將預測結果一.cvs檔案的形式上傳kaggle網站。

#讀入測試資料集並完成預處理, 
testdata = pd.read_csv('data/test.csv')
testdata = testdata.fillna(0)

testdata['Sex'] = testdata['Sex'].apply(lambda s: 1 if s== 'male' else 0)
X_test = testdata[['Sex', 'Age', 'Pclass', 'SibSp', 'Parch', 'Fare']]

with tf.Session() as sess2:
    tf.global_variables_initializer().run()
    #載入模型存檔
    saver.restore(sess2, save_path)
    #正向傳播計算
    predictions = np.argmax(sess2.run(y_pred, feed_dict={X:X_test}), 1)

    #構建提交結果的資料結構，並將結果儲存為csv檔案
    submission = pd.DataFrame({
        "PassengerId": testdata["PassengerId"],
        "Survived": predictions
    })
    #將預測資料寫入titanic_submissioin.csv檔案中
    submission.to_csv("titanic_submission.csv", index=False)

使用TensorFlow實現邏輯迴歸（Titanic船員獲救專案實現）

Titanic船員獲救問題是kaggle上一個很經典的機器學習練手專案，很適合機器學習入門階段拿來練手以熟悉機器學習相關流程和知識。本篇文章用來記錄本人學習TensorFlow時，用Titanic問題來練習的筆記。通常機器學習的常規流程可概

TensorFlow實現Softmax迴歸（模型儲存與載入）

1 # -*- coding: utf-8 -*- 2 """ 3 Created on Thu Oct 18 18:02:26 2018 4 5 @author: zhen 6 """ 7 8 from tensorflow.examples.tutorials.mnist imp

通過使用各種演算法（線性迴歸，邏輯迴歸，隨機森林，繼承演算法）預測泰坦尼克號上的某個人是否獲救

Python原始碼: #!/usr/bin/env python # encoding: utf-8 """ @Company：華中科技大學電氣學院聚變與等離子研究所 @version: V1.0 @author: Victor @contact: [email protected]

Python實現邏輯迴歸演算法（一）

本次用Python實現邏輯迴歸演算法，邏輯迴歸是應用非常廣泛的一個分類及其學習演算法，它將資料擬合到一個logit函式中，從而完成對事件發生的概率進行預測。本次學習筆記主要參考了《Python進行資料分析與挖掘實踐》和作者@寒小陽的部落格，地址如下：http://blog.c

TensorFlow的邏輯迴歸實現

開啟微信掃一掃，關注微信公眾號【資料與演算法聯盟】轉載請註明出處：http://blog.csdn.net/gamer_gyt 博主微博：http://weibo.com/234654758 Github：https://git

二，機器學習演算法之邏輯迴歸（python實現）

邏輯迴歸（Logistic Regression）是目前流行最廣泛的演算法之一。 1. 何為邏輯迴歸：邏輯迴歸主要思想是根據現有的訓練集(資料)進行分類，判斷這些資料屬於哪一個類別，通

多分類實現方式介紹和在Spark上實現多分類邏輯迴歸（Multinomial Logistic Regression）

【MachineLearning】之邏輯迴歸（scikit-learn 實現）

邏輯迴歸的類及預設引數： LogisticRegression(penalty='l2', dual=False, tol=0.0001, C=1.0, fit_intercept=True, in

機器學習之邏輯迴歸（logistics regression）程式碼（牛頓法實現）

先貼一張圖解釋牛頓法原理：然後以一道問題為例：這個問題是《機器學習》周志華版本上的題目，給了西瓜的密度和含糖率資料，判斷西瓜的好壞。資料在程式碼裡。下面貼一下程式碼： <span style="font-size

【T-Tensorflow框架學習】Tensorflow簡單邏輯迴歸實現

Softmax迴歸介紹我們知道MNIST的每一張圖片都表示一個數字，從0到9。我們希望得到給定圖片代表每個數字的概率。比如說，我們的模型可能推測一張包含9的圖片代表數字9的概率是80%但是判斷它是8的概率是5%（因為8和9都有上半部分的小圓），然後給予它代表

邏輯迴歸（LR）和支援向量機（SVM）的區別和聯絡

1. 前言在機器學習的分類問題領域中，有兩個平分秋色的演算法，就是邏輯迴歸和支援向量機，這兩個演算法個有千秋，在不同的問題中有不同的表現效果，下面我們就對它們的區別和聯絡做一個簡單的總結。 2. LR和SVM的聯絡都是監督的分類演算法。都是線性分類方法 (不考慮核函式時）。都是判別

c++實現線性迴歸（高斯消元）（附python實現）

前言寫這次blog的契機是上次筆試的時候，遇到了這個問題當時以為numpy庫是可以用的，就先寫了個python版，結果並不能用。。最後憤然寫了個c++版不過最後一個小問題導致我差了兩分鐘沒交上去程式碼，所以這一版原始碼只是通過了案例但沒有提交ac。。

貸款逾期--邏輯迴歸（1）

主要根據資料集來建立一個邏輯迴歸模型資料集來源https://pan.baidu.com/s/1izJZerx0lfvQX6YRKYWv-g 主要問題是根據資料建立一個邏輯迴歸模型來預測貸款是否逾期。下面是對其進行編寫的程式碼：主要分為五步： 1.資料分析對缺失

基於sciket-learn實現邏輯迴歸

邏輯迴歸雖然名稱裡有迴歸兩個字，但是邏輯迴歸主要用來解決分類問題，並且只能解決二分類問題。（當然邏輯迴歸也可以解決迴歸問題；同時邏輯迴歸可以通過OvO、OvR等方法實現多分類，但本質還是二分類。）邏輯迴歸與線性迴歸不同的是，線性迴歸得出的是一個具體的預測值，預測房價的模型得出的就是房價，預測成

分類和邏輯迴歸（Classification and logistic regression）

看了一下斯坦福大學公開課：機器學習教程（吳恩達教授），記錄了一些筆記，寫出來以便以後有用到。筆記如有誤，還望告知。本系列其它筆記：線性迴歸（Linear Regression）分類和邏輯迴歸（Classification and logistic regression）廣義線性模

邏輯迴歸（含推導）

邏輯迴歸（logistic） 1、L就是用sigmod函式 2、損失函式為：邏輯迴歸的損失函式與線性迴歸相似，就是多了sigmoid函式，將概率對映到0-1之間。再用極大似然思想，將L（θ）函式最大化。然後梯度上升，將函

tensorflow構造邏輯迴歸模型

import numpy as np import tensorflow as tf import matplotlib.pyplot as plt import input_data mnist = input_data.read_data_sets('data/', one_hot=True)

梯度下降方法實現邏輯迴歸效能

Logistic Regression #三大件,%將那些用matplotlib繪製的圖顯示在頁面裡而不是彈出一個視窗 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matpl

[PyTorch小試牛刀]實戰二·實現邏輯迴歸對鳶尾花進行分類

[PyTorch小試牛刀]實戰二·實現邏輯迴歸對鳶尾花進行分類程式碼使用均方根誤差 import numpy as np import pandas as pd import matplotlib.pyplot as plt import torch as t fr

機器學習專案實戰--邏輯迴歸（Logistic Regression）

（一）邏輯迴歸邏輯迴歸演算法是一種廣義的線性迴歸分析模型, 可用於二分類和多分類問題, 常用於資料探勘、疾病自動診斷、經濟預測等領域。通俗來說, 邏輯迴歸演算法通過將資料進行擬合成一個邏輯函式來預估一個事件出現的概率，因此被稱為邏輯迴歸。因為演算法輸出的為事件發生概率, 所以其輸出值應該在0

使用TensorFlow實現邏輯迴歸（Titanic船員獲救專案實現）

相關推薦