scikit-learn 邏輯迴歸實現乳腺癌檢測

阿新 • • 發佈：2018-12-09

隨書程式碼，閱讀筆記

載入資料

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

# 載入資料
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
X = cancer.data
y = cancer.target
print('data shape: {0}; no. positive: {1}; no. negative: {2}'.format(
    X.shape, y[y==1].shape[0], y[y==0].shape[0]))
print(cancer.data[0])

#準備測試集和訓練集
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

一共有569個樣本，每個樣本有30個特徵，其中357個陽性，212個陰性(y=0)

模型訓練

# 模型訓練
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
model.fit(X_train, y_train)

train_score = model.score(X_train, y_train)
test_score = model.score(X_test, y_test)
print('train score: {train_score:.6f}; test score: {test_score:.6f}'.format(
    train_score=train_score, test_score=test_score))

#output: train score: 0.953846; test score: 0.956140

預測

# 樣本預測
y_pred = model.predict(X_test)
print('matchs: {0}/{1}'.format(np.equal(y_pred, y_test).shape[0], y_test.shape[0]))

# 預測概率：找出低於 90% 概率的樣本個數
y_pred_proba = model.predict_proba(X_test)
print('sample of predict probability: {0}'.format(y_pred_proba[0]))
y_pred_proba_0 = y_pred_proba[:, 0] > 0.1 
result = y_pred_proba[y_pred_proba_0]
y_pred_proba_1 = result[:, 1] > 0.1
print(result[y_pred_proba_1])

模型優化

import time
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline

# 增加多項式預處理
def polynomial_model(degree=1, **kwarg):
    polynomial_features = PolynomialFeatures(degree=degree,
                                             include_bias=False)
    logistic_regression = LogisticRegression(**kwarg)
    pipeline = Pipeline([("polynomial_features", polynomial_features),
                         ("logistic_regression", logistic_regression)])
    return pipeline

model = polynomial_model(degree=2, penalty='l1')

start = time.clock()
model.fit(X_train, y_train)

train_score = model.score(X_train, y_train)
cv_score = model.score(X_test, y_test)
print('elaspe: {0:.6f}; train_score: {1:0.6f}; cv_score: {2:.6f}'.format(
    time.clock()-start, train_score, cv_score))

#output : train_score: 1.000000; cv_score: 0.973684

新特徵

根據原始的30個特徵，使用多項式組合出來495個特徵，其中97個是有用的。

logistic_regression = model.named_steps['logistic_regression']
print('model parameters shape: {0}; count of non-zero element: {1}'.format(
    logistic_regression.coef_.shape, 
    np.count_nonzero(logistic_regression.coef_)))

#output:model parameters shape: (1, 495); count of non-zero element: 97

學習率曲線

from common.utils import plot_learning_curve
from sklearn.model_selection import ShuffleSplit

cv = ShuffleSplit(n_splits=10, test_size=0.2, random_state=0)
title = 'Learning Curves (degree={0}, penalty={1})'
degrees = [1, 2]
penalty = 'l1'

start = time.clock()
plt.figure(figsize=(12, 4), dpi=144)
for i in range(len(degrees)):
    plt.subplot(1, len(degrees), i + 1)
    plot_learning_curve(plt, polynomial_model(degree=degrees[i], penalty=penalty), 
                        title.format(degrees[i], penalty), X, y, ylim=(0.8, 1.01), cv=cv)

print('elaspe: {0:.6f}'.format(time.clock()-start))


penalty = 'l2'

start = time.clock()
plt.figure(figsize=(12, 4), dpi=144)
for i in range(len(degrees)):
    plt.subplot(1, len(degrees), i + 1)
    plot_learning_curve(plt, polynomial_model(degree=degrees[i], penalty=penalty, solver='lbfgs'), 
                        title.format(degrees[i], penalty), X, y, ylim=(0.8, 1.01), cv=cv)

print('elaspe: {0:.6f}'.format(time.clock()-start))

擴充套件閱讀

scikit-learn 邏輯迴歸實現乳腺癌檢測

隨書程式碼，閱讀筆記載入資料 %matplotlib inline import matplotlib.pyplot as plt import numpy as np # 載入資料 from sklearn.datasets import load_breast_ca

scikit-learn 邏輯迴歸例子詳解

import numpy as np import matplotlib.pyplot as plt from sklearn import linear_model, datasets # import some data to play with iris = datasets.load_iris()

skiti-learn邏輯迴歸演算法庫

skiti-learn中，與邏輯迴歸相關的3個類：LogisticRegression, LogisticRegressionCV,logistic_regression_path。LogisticRegressionCV使用交叉驗證選擇正則化係數C。logistic_regression_

scikit-learn 線性迴歸模型的score函式，返回值是決定係數R^2

http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression http://scikit-le

scikit-learn 線性迴歸擬合正弦函式，預測房價

隨書程式碼，閱讀筆記。線性迴歸擬合正弦函式 %matplotlib inline import matplotlib.pyplot as plt import numpy as np n_dots = 200 X = np.linspace(-2 * np.pi

機器學習--邏輯迴歸及乳腺癌預測

邏輯迴歸演算法是用來解決分類問題的演算法。邏輯迴歸模型由sklearn.linear_model.LogisticRegression實現例項：乳腺癌預測 a. 模型訓練 # 載入自帶乳腺癌資料集 from sklearn.datasets import lo

邏輯迴歸實現客戶逾期分析

一、【目標】構建邏輯迴歸模型進行預測使用者是否逾期二、【任務】寫部落格或者寫筆記或者word呈現任務遇到的問題參考資料程式碼完成時間：11.14-11.15 三、【原始資料】資料：金融資料任務：我們要做的是預測貸款使用者是否會逾期，

sikit-learn--邏輯迴歸應用

邏輯迴歸簡介 logistic 迴歸，雖然名字裡有 “迴歸” 二字，但實際上是解決分類問題的一類線性模型。在某些文獻中，logistic 迴歸又被稱作 logit 迴歸，maximum-entropy classification（MaxEnt，最大熵分類）

scikit-learn : 線性迴歸，多元迴歸，多項式迴歸

匹薩的直徑與價格的資料 %matplotlib inline import matplotlib.pyplot as plt def runplt(): plt.figure() plt.title(u'diameter-cost

scikit-learn : 線性迴歸

# 線性迴歸背景從線性迴歸(Linear regression)開始學習迴歸分析，線性迴歸是最早的也是最基本的模型——把資料擬合成一條直線。 — # 資料集使用scikit-learn裡的資料集boston,boston資料集很適合用來演示線性

TensorFlow的邏輯迴歸實現

開啟微信掃一掃，關注微信公眾號【資料與演算法聯盟】轉載請註明出處：http://blog.csdn.net/gamer_gyt 博主微博：http://weibo.com/234654758 Github：https://git

Scikit-Learn與迴歸樹

迴歸演算法原理 CART(Classification and Regression Tree)演算法是目前決策樹演算法中最為成熟的一類演算法，應用範圍也比較廣泛。它既可以用於分類。西方預測理論一般都是基於迴歸的，CART是一種通過決策樹方法實現

【T-Tensorflow框架學習】Tensorflow簡單邏輯迴歸實現

Softmax迴歸介紹我們知道MNIST的每一張圖片都表示一個數字，從0到9。我們希望得到給定圖片代表每個數字的概率。比如說，我們的模型可能推測一張包含9的圖片代表數字9的概率是80%但是判斷它是8的概率是5%（因為8和9都有上半部分的小圓），然後給予它代表

邏輯迴歸-信用卡欺詐檢測

資料來源準備 "Time","V1","V2","V3","V4","V5","V6","V7","V8","V9","V10","V11","V12","V13","V14","V15","V16","V17","V18","V19","V20","V2

【MachineLearning】之邏輯迴歸（scikit-learn 實現）

邏輯迴歸的類及預設引數： LogisticRegression(penalty='l2', dual=False, tol=0.0001, C=1.0, fit_intercept=True, in

【甘道夫】基於scikit-learn實現邏輯迴歸LogisticRegression

>>> print iris {'target_names': array(['setosa', 'versicolor', 'virginica'], dtype='|S10'), 'data': array([[ 5.1, 3.5, 1.4, 0.2],

基於sciket-learn實現邏輯迴歸

邏輯迴歸雖然名稱裡有迴歸兩個字，但是邏輯迴歸主要用來解決分類問題，並且只能解決二分類問題。（當然邏輯迴歸也可以解決迴歸問題；同時邏輯迴歸可以通過OvO、OvR等方法實現多分類，但本質還是二分類。）邏輯迴歸與線性迴歸不同的是，線性迴歸得出的是一個具體的預測值，預測房價的模型得出的就是房價，預測成

【SciKit-Learn學習筆記】3：線性迴歸測算波士頓房價,Logistic迴歸預測乳腺癌

學習《scikit-learn機器學習》時的一些實踐。線性迴歸這部分和第一篇筆記"繪製隨機波動樣本的學習曲線 "部分基本類似。線性迴歸裡可以加入多項式特徵，以對模型做增強。線性迴歸增加多項式特徵,擬合sin函式 import numpy as np impor

python實現信用卡欺詐檢測 logistic迴歸邏輯迴歸演算法

1.資料集下載：連結: https://pan.baidu.com/s/1zUxSxwiProvfmAAWjyYb4w 密碼: 6eai 程式碼下載：連結: https://pan.baidu.com/s/1KyVOEU3p-sfCQIauCXGWIA 密碼:

【Iris】【Keras】神經網路分類器和【scikit-learn】邏輯迴歸分類器的構建

原文連結：https://github.com/fastforwardlabs/keras-hello-world/blob/master/kerashelloworld.ipynb 原文標題：“Hello world” in Keras 本文全部程式碼基於python2，

scikit-learn 邏輯迴歸實現乳腺癌檢測

相關推薦