【機器學習 sklearn】邏輯斯蒂迴歸模型--Logistics regression

阿新 • • 發佈：2019-01-25

執行結果：

"D:\Program Files\Python27\python.exe" D:/PycharmProjects/sklearn/Logistics_regression.py
Logistics regression
[[99  1]
 [ 1 70]]
sgdc_y_predict
[[98  2]
 [ 1 70]]
Accuracy of LR Classifier: 0.988304093567
             precision    recall  f1-score   support

     Benign       0.99      0.99      0.99 
       100
  Malignant       0.99      0.99      0.99        71

avg / total       0.99      0.99      0.99       171

Accuarcy of SGD Classifier: 0.982456140351
             precision    recall  f1-score   support

     Benign       0.99      0.98      0.98       100
  Malignant       0.97      0.99      0.98        71 


avg / total       0.98      0.98      0.98       171


Process finished with exit code 0

原始碼：

#coding:utf-8
from __future__ import division
import sys
reload(sys)
sys.setdefaultencoding('utf-8')


##############邏輯斯蒂迴歸模型Logostics regression#####################
# 匯入pandas與numpy工具包。
import pandas as pd
import numpy as np


# 建立特徵列表。 

column_names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape', 'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin', 'Normal Nucleoli', 'Mitoses', 'Class']

# 使用pandas.read_csv函式從網際網路讀取指定資料。
data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data', names = column_names )

# print data
# 將?替換為標準缺失值表示。
data = data.replace(to_replace='?', value=np.nan)
# 丟棄帶有缺失值的資料（只要有一個維度有缺失）。
data = data.dropna(how='any')

# 輸出data的資料量和維度。
# print  data.shape



# 使用sklearn.cross_valiation裡的train_test_split模組用於分割資料。
# from sklearn.cross_validation import train_test_split(已移除)
from sklearn.model_selection import train_test_split
# 隨機取樣25%的資料用於測試，剩下的75%用於構建訓練集合。
X_train, X_test, y_train, y_test = train_test_split(data[column_names[1:10]], data[column_names[10]], test_size=0.25, random_state=33)

 # 查驗訓練樣本的數量和類別分佈。
# print  y_train.value_counts()

# 查驗測試樣本的數量和類別分佈。
# print y_test.value_counts()


# 從sklearn.preprocessing裡匯入StandardScaler。
from sklearn.preprocessing import StandardScaler
# 從sklearn.linear_model裡匯入LogisticRegression與SGDClassifier。
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import SGDClassifier

# 標準化資料，保證每個維度的特徵資料方差為1，均值為0。使得預測結果不會被某些維度過大的特徵值而主導。
ss = StandardScaler()
X_train = ss.fit_transform(X_train)
X_test = ss.transform(X_test)



# 初始化LogisticRegression與SGDClassifier。
lr = LogisticRegression()
sgdc = SGDClassifier()

# 呼叫LogisticRegression中的fit函式/模組用來訓練模型引數。
lr.fit(X_train, y_train)
# 使用訓練好的模型lr對X_test進行預測，結果儲存在變數lr_y_predict中。
lr_y_predict = lr.predict(X_test)

# print lr_y_predict
# 呼叫SGDClassifier中的fit函式/模組用來訓練模型引數。
sgdc.fit(X_train, y_train)
# 使用訓練好的模型sgdc對X_test進行預測，結果儲存在變數sgdc_y_predict中。
sgdc_y_predict = sgdc.predict(X_test)

# print sgdc_y_predict



############列印混淆矩陣
from sklearn.metrics import confusion_matrix
labels1 = list(set(lr_y_predict))
conf_mat1 = confusion_matrix(y_test, lr_y_predict, labels=labels1)
print "Logistics regression"
print conf_mat1


labels2 = list(set(sgdc_y_predict))
conf_mat2 = confusion_matrix(y_test, sgdc_y_predict, labels=labels2)
print "sgdc_y_predict"
print conf_mat2


# 從sklearn.metrics裡匯入classification_report模組。
from sklearn.metrics import classification_report

# 使用邏輯斯蒂迴歸模型自帶的評分函式score獲得模型在測試集上的準確性結果。
print 'Accuracy of LR Classifier:', lr.score(X_test, y_test)
# 利用classification_report模組獲得LogisticRegression其他三個指標的結果。
print classification_report(y_test, lr_y_predict, target_names=['Benign', 'Malignant'])




 # 使用隨機梯度下降模型自帶的評分函式score獲得模型在測試集上的準確性結果。
print 'Accuarcy of SGD Classifier:', sgdc.score(X_test, y_test)
# 利用classification_report模組獲得SGDClassifier其他三個指標的結果。
print classification_report(y_test, sgdc_y_predict, target_names=['Benign', 'Malignant'])

【機器學習 sklearn】邏輯斯蒂迴歸模型--Logistics regression

執行結果： "D:\Program Files\Python27\python.exe" D:/PycharmProjects/sklearn/Logistics_regression.py Logistics regression [[99 1] [

《機器學習實戰》--邏輯斯蒂迴歸

梯度下降視覺化前一篇看完了理論，我們來實戰一下，首先看一下梯度下降的效果先看程式碼 # 目標函式 def func(x): return np.square(x) # 目標函式一階導數 def dfunc(x): return 2

《機器學習實戰》-- 邏輯斯蒂迴歸

引言迴歸我們知道有線性迴歸，線性迴歸模型能夠無限的逼近我們的結果。以(xi,yi)為例，通過線性迴歸 f(x)=wTx+b表示式，就可以得到我們對yi的估計值。迴歸到分類如何從線性迴歸轉換到分類呢？由於線性迴歸得到的是連續值，z=wTx+b，

【機器學習實戰】邏輯迴歸----sklearn庫中的LogisticRegression類

LogisticRegression類邏輯迴歸的基本思想在前面已經寫過，就不再贅述。主要是為了瞭解並使用scikit-learn中邏輯迴歸類庫，在實踐前先整理一下里面的引數、屬性和方法。我們使用 ##載入線性模型 from sklearn impo

【機器學習 sklearn】手寫數字識別 SVM

執行結果： "D:\Program Files\Python27\python.exe" D:/PycharmProjects/sklearn/SVM.py (1797L, 64L) [[ 0. 0. 5. ..., 0. 0. 0.]

【機器學習 sklearn】XGBclassifier 超引數尋優

程式碼片段 # encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import pandas as pd train = pd.read_csv('train.csv

李航·統計學習方法筆記·第6章 logistic regression與最大熵模型（1）·邏輯斯蒂迴歸模型

第6章 logistic regression與最大熵模型（1）·邏輯斯蒂迴歸模型標籤（空格分隔）：機器學習教程·李航統計學習方法邏輯斯蒂：logistic 李航書中稱之為：邏輯斯蒂迴歸模型周志華書中稱之為：對數機率迴歸模

【Tensorflow】邏輯斯特迴歸（Logistic Regression）的簡單實現

Introduction 為了簡單的介紹和講解一下Tensorflow的基本操作，我決定做一個簡單的邏輯斯特迴歸實現與程式碼講解，但不太會用Markdown的方式來展現一個JupyterNotebook，姑且就按照“說明—例項”的方式來解釋逐個程式碼塊好了

sklean學習之LogisticRegression（邏輯斯蒂迴歸分類器）【原始碼】

def fit(self, X, y, sample_weight=None): """根據給定的訓練資料擬合模型. 引數 ---------- X : {array-like, sparse matrix}, shape (n_samples, n_fe

【機器學習--樸素貝葉斯與SVM進行病情分類預測】

貝葉斯定理由英國數學家托馬斯.貝葉斯（Thomas Baves）在1763提出，因此得名貝葉斯定理。貝葉斯定理也稱貝葉斯推理，是關於隨機事件的條件概率的一則定理。對於兩個事件A和B，事件A發生則B也發生的概率記為P(B|A)，事件B發生則A也發生的概率記為P

【機器學習實戰】樸素貝葉斯

一.概述二.理論基礎三.文件分類四.垃圾郵件過濾五.從個人廣告中獲取區域傾向六.程式碼問題總結七.總結一、概述貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。本章首先介紹貝葉斯分類演算法的基礎——

【機器學習六】貝葉斯NB

程式碼先貼上，後續總結 from numpy import * # 過濾網站的惡意留言侮辱性：1 非侮辱性：0 # 建立一個實驗樣本 def loadDataSet(): postingList = [['my','dog','has','flea','problems','h

【機器學習+sklearn框架】（一）線性模型之Linear Regression

前言一、原理 1.演算法含義 2.演算法特點二、實現 1.sklearn中的線性迴歸 2.用Python自己實現演算法三、思考（面試常問）參考前言線性迴歸（Linear Regression）基本上可以說是機器

《機器學習實戰》第5章邏輯斯蒂迴歸數學推導

在《機器學習實戰》一書的第5章邏輯斯蒂迴歸的程式碼介紹中，p79中開頭有一句，“此處略去了一個簡單的數學推導”，那麼到底略去了哪一個簡單的數學推導呢？本著要將這個演算法徹底搞明白的態度，筆者在百度上搜了好多資料，終於找到了相關的資料，以供參考。從上圖中按照邏輯斯蒂迴歸演算法，利用梯

【機器學習實踐】用Python實現樸素貝葉斯分類器

閱讀學習了《機器學習》第7章的貝葉斯分類器後，為了加深理解和加強python的程式碼能力，因此嘗試使用Python實現樸素貝葉斯分類器，由於初學Python的緣故，程式碼的一些實現方法可能比較繁瑣，可閱讀性有待提高。程式碼如下： #import numpy a

【機器學習入門】Andrew NG《Machine Learning》課程筆記之四：分類、邏輯迴歸和過擬合

分類和邏輯迴歸在實際的生活中，會遇到很多二元分類問題(Binary Classification Problem),比如判斷一封郵件是否是垃圾郵件，攝像頭判斷使用者是男是女和一張圖片裡包含的是貓還是狗等等。在有監督的分類問題中，通常使用帶標記(Label

【機器學習實戰】網格搜尋--貝葉斯新聞文字分類器調優

#對文字分類的樸素貝葉斯模型的超引數組合進行網格搜尋 #從sklearn.datasets中匯入20類新聞文字抓取器 from sklearn.datasets import fetch_20newsgroups import numpy as np #抓取新

【機器學習調查】髒資料最棘手，邏輯迴歸最常用

新智元編譯來源：The Verge 作者：James Vincent 編譯：馬文【新智元導讀】資料科學社群Kaggle的最新調查顯示，機器學習和資料科學研究者在被問到工作中面臨的最大障礙時，最常見的回答是“髒資料”，其次是缺乏該領域的人才。此外，他們最常用的方法是“邏輯迴

機器學習筆記:線性迴歸、邏輯斯蒂迴歸推導

參考書籍：《統計學習方法》，cs229，其他 1、線性迴歸 1.1、線性迴歸表示線性迴歸屬於監督學習問題，輸入X與輸出Y成線性關係，只要我們得到了這個具體的關係，那麼對於待預測的資料X我們便可以知道Y的值。現在就來求這個線性關係先定義好變量表示。記輸入變量表示為

機器學習筆記（一）邏輯斯蒂迴歸LR

本文是在學習完李航老師的《統計學習方法》後，在網上又學習了幾篇關於LR的部落格，算是對LR各個基礎方面的一個回顧和總結。一簡述邏輯斯蒂迴歸是一種對數線性模型。經典的邏輯斯蒂迴歸模型（LR

【機器學習 sklearn】邏輯斯蒂迴歸模型--Logistics regression

相關推薦