機器學習實戰——利用Logistic迴歸預測疝氣病症的病馬的死亡率

阿新 • • 發佈：2019-02-17

資料來源

處理過程

由於該資料集存在30%的缺失，那麼首先必須對資料集進行預處理，這裡我把缺失值用每列的平均值來代替，同時把資料集沒用的幾列資料捨棄。之後利用sklearn庫進行Logistic迴歸。

結果：
由於有30%的資料缺失，不可避免誤差過大。

Python程式碼如下：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2017/4/23 0023 7:59
# @Author  : Aries
# @Site    : 
# @File    : 疝氣症預測病馬死亡率.py
# @Software: PyCharm Community Edition 


import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression

def GetData(path):
    """
    :param path: 資料集路徑
    :return: 返回資料集
    """

    Data = []
    Label = []

    #沒有用的屬性的下標
    index = [2,24,25,26,27]

    with open(path) as 
 f:
        for line in f.readlines():
            LineArr = line.strip().split(" ")
            m = np.shape(LineArr)[0]
            data = []
            for i in range(m):
                if i in index:
                    #沒有用的屬性直接跳過
                    continue
                elif i == 22:
                    #下標為22的屬性是分類 

                    #1代表活著，標記設為1
                    #2,3分別代表死亡，安樂死，標記設為0
                    if LineArr[i] == '?':
                        Label.append(0)
                    elif int(LineArr[i]) == 1:
                        Label.append(1)
                    else:
                        Label.append(0)
                else:
                    #剩下的是有用資料
                    if LineArr[i] == '?':
                        #缺失資料首先由0代替
                        data.append(0.0)
                    else:
                        data.append(float(LineArr[i]))
            Data.append(data)
        Data = np.array(Data)
        Label = np.array(Label)

    return Data,Label

def ZeroProcess(data):
    """
    :param data:需要進行0值處理的資料
    :return: 返回把0值已經處理好的資料
    """

    m,n = np.shape(data)
    for i in range(n):
        avg = np.average(data[:,i])
        if np.any(data[:,i]) == 0:
            for j in range(m):
                data[j][i] = avg
        else:
            continue

    return data

def autoNorm(Data):
    """
    :param Data: 需要進行歸一化的資料
    :return: 進行Max-Min標準化的資料
    """

    #求出資料中每列的最大值，最小值，以及相應的範圍
    data_min = Data.min(0)
    data_max = Data.max(0)
    data_range = data_max-data_min

    #進行歸一化
    m = np.shape(Data)[0]
    Norm_Data = Data - np.tile(data_min,(m,1))
    Norm_Data = Norm_Data / data_range

    return Norm_Data

def PreProcess(data):
    """
    資料預處理，包括0值處理和歸一化
    :param data:需要處理的資料
    :return: 已經處理好的資料
    """

    #對資料進行0值處理
    Non_Zero_Data = ZeroProcess(data)

    #對資料進行歸一化
    Norm_Data = autoNorm(Non_Zero_Data)

    return  Norm_Data

def run_main():
    """
        這是主函式
    """

    #匯入訓練與測試資料集
    path1 = "./horse_colic_train.txt"
    path2 = "./horse_colic_test.txt"
    Train_Data,Train_Label = GetData(path1)
    Test_Data,Test_Label = GetData(path2)

    #資料預處理，包括0值處理和歸一化
    Train_Data_Precess = PreProcess(Train_Data)
    Test_Data_Process = PreProcess(Test_Data)

    #設定matplotlib，能讓它顯示中文
    mpl.rcParams['font.sans-serif'] = [u'simHei']
    mpl.rcParams['axes.unicode_minus'] = False

    #訓練Logistic迴歸演算法
    logistiic_regression = LogisticRegression()
    model = logistiic_regression.fit(Train_Data_Precess,Train_Label)
    print("Logistic迴歸的係數為：", logistiic_regression.coef_, "常數項為:", logistiic_regression.intercept_)

    #對Logistic迴歸演算法進行測試
    Train_Label_Predict = logistiic_regression.predict(Train_Data_Precess)
    error = 0.0
    for i in range(len(Train_Label)):
        if Train_Label[i] != Train_Label_Predict[i]:
            error = error + 1.0
    error = error / len(Train_Label)
    avg = np.average(Train_Label)
    TSS = np.sum((Train_Label-avg)**2)
    RSS = np.sum((Train_Label_Predict-Train_Label)**2)
    R2 = 1 - RSS/TSS
    print("訓練樣本的誤差為：",error)
    print("R2為:",R2)

    #測試新資料
    Test_Label_Predict = logistiic_regression.predict(Test_Data_Process)
    err = 0.0
    for i in range(len(Test_Label_Predict)):
        print(Test_Label[i],Test_Label_Predict[i])
        if Test_Label_Predict[i] != Test_Label[i]:
            err = err + 1.0
    err = err / len(Test_Label)
    print("誤差為：",err)

if __name__ == "__main__":
    run_main()

機器學習實戰——利用Logistic迴歸預測疝氣病症的病馬的死亡率

資料來源處理過程由於該資料集存在30%的缺失，那麼首先必須對資料集進行預處理，這裡我把缺失值用每列的平均值來代替，同時把資料集沒用的幾列資料捨棄。之後利用sklearn庫進行Logistic迴歸。結果：由於有30%的資料缺失，

《機器學習實戰》Logistic迴歸python3原始碼

邏輯迴歸： 1 梯度上升優化演算法 2 隨機梯度上升演算法 3 改進的隨機梯度上升法開啟pycharm建立一個logRegression.py檔案，輸入如下程式碼： #coding:utf-8 from numpy import * ""

《機器學習實戰》logistic迴歸：關於’此處略去了一個簡單的數學推導‘的個人理解

正在看《機器學習實戰》這本書的朋友，在看到logistic迴歸的地方，可能會對P78頁的梯度上升演算法程式碼以及P79這裡的這句話弄的一頭霧水：“此處略去了一個簡單的數學推導，我把它留給有興趣的讀者”。這句話就是針對下面這段我貼出來的程式碼中的gradAscen

機器學習實戰：logistic迴歸--學習筆記

一、工作原理 1.每個迴歸係數初始化為 1 2.重複 R 次: 1. 計算整個資料集的梯度 2. 使用步長 x 梯度更新迴歸係數的向量 5.返回迴歸係數二、實現程式碼 1.基於梯度上升尋找邏輯迴歸引數

《機器學習實戰》Logistic迴歸演算法（1）

-0.017612 14.053064 0 -1.395634 4.662541 1 -0.752157 6.5386200 -1.322371 7.152853 0 0.42336311.054677 0 0.406704 7.067335 1 0

【機器學習實戰】Logistic迴歸總結與思考

【機器學習實戰】Logistic迴歸全部程式均是依照《機器學習實戰》書寫，然後進行了一些修改（順便鞏固python） Logistic原理簡單解釋作者在書中這樣描述Logistic迴歸根據現有資料對分類邊界線建立迴歸公式，以此進行分類 --《機器學習實戰》P73 這本書對於理論的東

《機器學習實戰》——logistic迴歸

說明：對書中程式碼錯誤部分做了修正，可運行於python3.4 基本原理：現在有一些資料點，用一條直線對這些資料進行擬合，將它們分為兩類。這條直線叫做最佳擬合直線，這個擬合過程叫做迴歸。logistic迴歸的思想是，利用一個階躍函式（在某一點突然由0變1），實現分類器

【機器學習實戰】-Logistic 迴歸

一、邏輯迴歸介紹 Logistic 迴歸，雖然名字叫邏輯迴歸，但是它並不是一個迴歸模型，而是分類模型。利用邏輯迴歸進行分類的主要思想是：根據現有資料對分類邊界線建立迴歸公式。介紹它的真正原理之前，我們要介紹一下回歸的概念，那麼什麼是迴歸呢？假設我們現在有一堆

機器學習實戰第8章預測數值型數據：回歸

矩陣向量 from his sca ima 用戶 targe 不可 1.簡單的線性回歸假定輸入數據存放在矩陣X中，而回歸系數存放在向量W中，則對於給定的數據X1，預測結果將會是　　　　　　　　　　　　　　　　這裏的向量都默認為列向量現在的問題是手裏有一些x

機器學習實戰——利用AdaBoost元演算法提高分類效能實現記錄

問題：TypeError: __new__() takes from 2 to 4 positional arguments but 6 were given def loadSimpData(): datMat = matrix([1. ,2.1],

吳恩達機器學習練習2——Logistic迴歸

Logistic迴歸代價函式 Logistic迴歸是分類演算法，它的輸出值在0和1之間。 h(x)的作用是，對於給定的輸入變數，根據選擇的引數計算輸出變數等於1的可能性（estimated probablity）即h(x)=P(y=1|x;

《機器學習實戰》線性迴歸python原始碼

開啟pycharm建立一個regression.py檔案，輸入如下程式碼： #coding:utf-8 from numpy import * seterr(divide='ignore',invalid='ignore') """-------------------

機器學習4/100-Logistic迴歸

Day4 Logistic迴歸 github: 100DaysOfMLCode Logistic迴歸用於分類問題，可以直接用於二分類問題，也可以設計應用於多分類問題。原理傳統的感知機將wx+b>0和wx+b<0實現二分類（0、1），Logistics迴歸更進一步，

機器學習演算法：Logistic迴歸學習筆記

一、Logistic Regression的理解角度一：輸入變數X服從logistic分佈的模型

《機器學習實戰》Logistics迴歸學習心得

第一次接觸機器學習的東西，現在看到《機器學習實戰》第五章，分享一下學習心得 Logistics迴歸就是為了找一條能夠進行盡最大能力進行分類的擬合線，包括直線和曲線，但是要符合函式，也就是說這條線可以用函式進行表達，不然不能夠進行分類。如上圖所示，要用一條直線將綠

機器學習實戰----利用AdaBoost元演算法的實現

整理一下寫的非常好的關於AdaBoost演算法的部落格：1.1 基於第一步，因此外層迴圈即為資料集特徵的迴圈；1.1.1 如果是按照第一個特徵來劃分類別，那麼第一個特徵點中存在節點，即樹的左右分支，這個時候怎樣判斷是左還是右呢？1.1.2 首先根據資料大小跟定一個閾值T，這裡

【十】機器學習之路——logistic迴歸python實現

前面一個部落格機器學習之路——logistic迴歸講了logistic迴歸的理論知識，現在咱們來看一下logistic迴歸如何用python來實現，程式碼、資料參考《機器學習實戰》。首先看下我們要處理的資料，我們要做的就是通過logistic

機器學習演算法之一-logistic迴歸、softmax模型

開始一個新的系列，換一換口味分析機器學習演算法的一般思路： 1、確定預測函式或者判別函式，一般表示為H函式; 2、確定Cost函式，表示的是預測輸出值與訓練資料之間的偏差; 3、確定優化演算法。一、前言 logistic迴歸是常用的二分類模型，屬

吳恩達機器學習筆記 —— 7 Logistic迴歸

本章主要講解了邏輯迴歸相關的問題，比如什麼是分類？邏輯迴歸如何定義損失函式？邏輯迴歸如何求最優解？如何理解決策邊界？如何解決多分類的問題？有的時候我們遇到的問題並不是線性的問題，而是分類的問題。比如判斷郵件是否是垃圾郵件，信用卡交易是否正常，腫瘤是良性還是惡性的。他們有一個共同點就是Y只有兩個值{0,

機器學習sklearn19.0——Logistic迴歸演算法

一、Logistic迴歸的認知與應用場景 Logistic迴歸為概率型非線性迴歸模型，是研究二分類觀察結果與一些影響因素之間關係的一種多變量分析方法。通常的問題是，研究某些因素條件下某個結果是否發生，比如醫學中根據病人的一些症狀來判斷它是否患有某種病。二

機器學習實戰——利用Logistic迴歸預測疝氣病症的病馬的死亡率

資料來源

處理過程

相關推薦