【Kaggle筆記】良/惡性乳腺腫瘤資料（線性分類）

阿新 • • 發佈：2019-01-04

系統環境

資料集

程式碼

# -*- coding: utf-8 -*-
"""
良/惡性乳腺腫瘤資料線性分類

模型對比：
LogisticRegression (計算時間長，模型效能略高)
SGDClassifier      (計算時間段，模型效能略低)
"""
# 匯入pandas與numpy工具包。
import pandas as pd
import numpy as np

# 建立特徵列表。
column_names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size' 
, 'Uniformity of Cell Shape', 'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin', 'Normal Nucleoli', 'Mitoses', 'Class']

# 使用pandas.read_csv函式從網際網路讀取指定資料。
data = pd.read_csv("breast-cancer-wisconsin.txt", names = column_names )

# 將?替換為標準缺失值表示。
data = data.replace(to_replace='?' 
, value=np.nan)

# 丟棄帶有缺失值的資料（只要有一個維度有缺失）。
data = data.dropna(how='any')

# 輸出data的資料量和維度。
# print(data.shape)


# 使用sklearn.cross_valiation裡的train_test_split模組用於分割資料。
from sklearn.cross_validation import train_test_split

# 隨機取樣25%的資料用於測試，剩下的75%用於構建訓練集合。
X_train, X_test, y_train, y_test = train_test_split(data[column_names[1 
:10]], data[column_names[10]], test_size=0.25, random_state=33)


# 從sklearn.preprocessing裡匯入StandardScaler。
from sklearn.preprocessing import StandardScaler
# 從sklearn.linear_model裡匯入LogisticRegression與SGDClassifier。
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import SGDClassifier

# 標準化資料，保證每個維度的特徵資料方差為1，均值為0。使得預測結果不會被某些維度過大的特徵值而主導。
ss = StandardScaler()
X_train = ss.fit_transform(X_train)
X_test = ss.transform(X_test)

# 初始化LogisticRegression與SGDClassifier。
lr = LogisticRegression()
sgdc = SGDClassifier()

# 呼叫LogisticRegression中的fit函式/模組用來訓練模型引數。
lr.fit(X_train, y_train)
# 使用訓練好的模型lr對X_test進行預測，結果儲存在變數lr_y_predict中。
lr_y_predict = lr.predict(X_test)

# 呼叫SGDClassifier中的fit函式/模組用來訓練模型引數。
sgdc.fit(X_train, y_train)
# 使用訓練好的模型sgdc對X_test進行預測，結果儲存在變數sgdc_y_predict中。
sgdc_y_predict = sgdc.predict(X_test)


# 從sklearn.metrics裡匯入classification_report模組。
from sklearn.metrics import classification_report

# 使用邏輯斯蒂迴歸模型自帶的評分函式score獲得模型在測試集上的準確性結果。
print('Accuracy of LR Classifier:', lr.score(X_test, y_test))
# 利用classification_report模組獲得LogisticRegression其他三個指標的結果。
print(classification_report(y_test, lr_y_predict, target_names=['Benign', 'Malignant']))


 # 使用隨機梯度下降模型自帶的評分函式score獲得模型在測試集上的準確性結果。
print('Accuarcy of SGD Classifier:', sgdc.score(X_test, y_test))
# 利用classification_report模組獲得SGDClassifier其他三個指標的結果。
print(classification_report(y_test, sgdc_y_predict, target_names=['Benign', 'Malignant']))

線性分類模型比對結果

LogisticRegression (計算時間長，模型效能略高)
SGDClassifier (計算時間段，模型效能略低)

【Kaggle筆記】良/惡性乳腺腫瘤資料（線性分類）

系統環境資料集程式碼 # -*- coding: utf-8 -*- """ 良/惡性乳腺腫瘤資料線性分類模型對比： LogisticRegression (計算時間長，模型效能略高) SGDClassifier

【CSS筆記】— 使用calc()計算寬高（vm/vh）

【CSS筆記】— 使用calc()計算寬高（vm/vh） calc()是什麼？簡單來說就是CSS3中新增的一個函式，calculate（計算）的縮寫。用於動態計算寬/高，你可以使用calc()給元素的各個屬性設定值【margin、border、padding、font-size】等， calc()語法

【自學筆記】0基礎自學機器學習（第一天）

--概述-- 2016年，阿爾法狗大戰李世石引起軒然大波，題主得知之後，感覺非常酷炫，於是開始關注各種人工智慧的新聞，如車聯網，無人駕駛，智慧推薦，智慧醫療等相關內容，但是苦於沒時間去學習，一直沒能觸及。這次，有大量的時間，我覺得要有所行動了。挑戰

【自學筆記】0基礎自學機器學習（第二天）

定義：機器學習是人工智慧的一個分支領域，主要關於構造和研究可以從資料中學習的系統。小不忍則亂大謀，不可急功近利，工欲善其事，必先利其器，得能吃苦。 &

【Kaggle筆記】預測泰坦尼克號乘客生還情況（決策樹）

資料集程式碼 # -*- coding: utf-8 -*- """ 泰坦尼克號乘客生還情況預測模型決策樹 """ # 匯入pandas用於資料分析。 import panda

【Kaggle筆記】新聞文字分類（樸素貝葉斯）

樸素貝葉斯模型適用場景海量文字分類任務假設資料特徵與目標之間存線上性關係資料集 sklearn 中的 fetch_20newsgroups 程式碼 # -*- c

【讀書筆記】——《代碼大全》（六）

variable 數據 borde 代碼 In 自然 dex ont 列表 The Power of Variable Names 摘錄與總結一些有用的東西。語義前綴語義前綴含義 c 數量（count，如記錄、字符或者其他東西的個數）

【程式設計筆記】執行緒池實現原始碼（從POCO中剝離出來）

原始碼下載：https://download.csdn.net/download/fzuim/10625204 CThreadPool類 /***************************************************************

【自學筆記】0基礎自學機器學習（第三天）

“資料”是機器學習的基礎。初學機器學習時，我們通常處理的資料格式通常是以下的形式：屬性（特徵）幾室幾廳供暖（0地熱 1暖氣）

【C++筆記】判斷兩個數互質（做大公約數為1）

定理：gcd(a,b) = gcd(b,a mod b) // a和b的最大公因數，a和b的大小沒影響。 ①0和任意自然數的最大公約數就是那個自然數。 ②互質指最大公約數等於1的兩個自然數。 ③

【學習筆記javascript設計模式與開發實踐（代理模式）----6】

第6章代理模式代理模式是為一個物件提供一個代用品或佔位符，以便控制對它的訪問。代理模式是一種非常有意義的模式，在生活中可以找到很多代理模式的場景。比如明星都有經濟人作為代理。如果想請明星來辦一場商業演出，只能聯絡他的經紀人，經紀人會把演出的細節和報酬都談好之後，再把合

【知了堂學習筆記】_JavaScript之DOM操作案例（ATM機）

js操作DOM的小案例——ATM機 <!DOCTYPE html> <html> <head> <meta charset="UT

【工作筆記】ElasticSearch從零開始學（二）—— 入門（搜尋）

建立一個員工目錄假設我們剛好在Megacorp工作，這時人力資源部門出於某種目的需要讓我們建立一個員工目錄，這個目錄用於促進人文關懷和用於實時協同工作，所以它有以下不同的需求資料能夠包含多個值的標籤、數字和純文字。檢索任何員工的所有資訊。支援結構化

【工作筆記】ElasticSearch從零開始學（六）—— JavaAPI_Aggregation

StructAggregation SearchResponse sr = client.prepareSearch() .addAggregation(

【讀書筆記】致加西亞的信（一）

人不能為了薪水而活著，那是目光短淺的表現。工作固然是為了生計，但是比生計更可貴的，就是在工作中充分挖掘自己的潛能，發揮自己的才幹，做正直而純正的事情。一些年輕人，當他們走出校園時，總對自己抱有很高的期望值，認為自己一開始工作就應該得到重用，就應該得到相當豐厚的報酬。他們在工

【工作筆記】從零開始學ExtJs6（一）——構建專案

題外話因為工作，需要用到ExtJs搭建一個報表系統，做後端的，前端Ext完全沒有接觸過，所以從頭開始，此工作日記就是記錄我學習ext的過程，從搭建，到登入，到首頁等等這些元件，慢慢摸索，然後記

【工作筆記】從零開始學ExtJs6（二）——登入模組

題外話上章，已經有一個專案框架了。大概是這個樣子 app/store ： stores檔案 app/model : models檔案 classic 桌面端檔案 modern 手機端檔案 classic/view： viewControl

【筆記】C++入門學習第一課（Hello World!）

ubun names 鏈接簡介 sudo ont 大小 ostream 編寫學習環境：Ubuntu14.04、gcc version 4.8.4 、Notepad++ 在Linux下安裝g++命令:sudo apt-get install g++（需要輸入登錄密碼獲得

【HDU 5305】Friends 多校第二場（雙向DFS）

tor typedef type clu name article using ring eof 依據題意的話最多32條邊，直接暴力的話 2 ^ 32肯定超時了。我們能夠分兩次搜索時間復雜度降低為 2 * 2 ^ 16 唯一須要註意的就是對眼下狀態的哈希處理。我採用

【蘿蔔學院】產品經理實戰訓練營課程（67課）完整版

產品經理註意 pan 百度網盤思考洞察力職場修煉為什麽課程大致目錄：第1課時產品經理入門自我修煉必備第2課時產品6問第3課時產品要關註的用戶體驗設計原則和能力第4課時敏銳的洞察力及碎片時間的利用第5課時日常生活的思考及分享從自己開始第6課時市場分析

【Kaggle筆記】良/惡性乳腺腫瘤資料（線性分類）

系統環境

資料集

程式碼

線性分類模型比對結果

相關推薦