Python sklearn.cross_validation.train_test_split及混淆矩陣實現

阿新 • • 發佈：2018-11-10

sklearn.cross_validation.train_test_split隨機劃分訓練集和測試集

一般形式：
train_test_split是交叉驗證中常用的函式，功能是從樣本中隨機的按比例選取train data和testdata，形式為：

X_train,X_test, y_train, y_test =

cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)

引數解釋：

train_data：所要劃分的樣本特徵集
train_target：所要劃分的樣本結果  
test_size：樣本佔比，如果是整數的話就是樣本的數量
random_state：是隨機數的種子。

隨機數種子：其實就是該組隨機數的編號，在需要重複試驗的時候，保證得到一組一樣的隨機數。比如你每次都填1，其他引數一樣的情況下你得到的隨機陣列是一樣的。但填0或不填，每次都會不一樣。隨機數的產生取決於種子，隨機數和種子之間的關係遵從以下兩個規則：種子不同，產生不同的隨機數；種子相同，即使例項不同也產生相同的隨機數。
示例

fromsklearn.cross_validation import train_test_split
train= loan_data.iloc[0: 55596, :]
test= loan_data.iloc[55596:, :]
# 避免過擬合，採用交叉驗證，驗證集佔訓練集20%，固定隨機種子（random_state)
train_X,test_X, train_y, test_y = train_test_split(train,
                                                   target,
                                                   test_size = 0.2,
                                                   random_state = 0)
train_y= train_y['label']
test_y= test_y['label']

plot_confusion_matrix.py（混淆矩陣實現例項）

print(__doc__)

import numpy as np
import matplotlib.pyplot as plt

from sklearn import svm, datasets
from sklearn.cross_validation import train_test_split
from sklearn.metrics import confusion_matrix

# import some data to play with
iris = datasets.load_iris()
X = iris.data
y = iris.target

# Split the data into a training set and a test set
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# Run classifier, using a model that is too regularized (C too low) to see
# the impact on the results
classifier = svm.SVC(kernel='linear', C=0.01)
y_pred = classifier.fit(X_train, y_train).predict(X_test)


def plot_confusion_matrix(cm, title='Confusion matrix', cmap=plt.cm.Blues):
    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(iris.target_names))
    plt.xticks(tick_marks, iris.target_names, rotation=45)
    plt.yticks(tick_marks, iris.target_names)
    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')


# Compute confusion matrix
cm = confusion_matrix(y_test, y_pred)
np.set_printoptions(precision=2)
print('Confusion matrix, without normalization')
print(cm)
plt.figure()
plot_confusion_matrix(cm)

# Normalize the confusion matrix by row (i.e by the number of samples
# in each class)
cm_normalized = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
print('Normalized confusion matrix')
print(cm_normalized)
plt.figure()
plot_confusion_matrix(cm_normalized, title='Normalized confusion matrix')

plt.show()

Python sklearn.cross_validation.train_test_split及混淆矩陣實現

sklearn.cross_validation.train_test_split隨機劃分訓練集和測試集一般形式： train_test_split是交叉驗證中常用的函式，功能是從樣本中隨機的按比例選取train data和testdata，形式為： X_train,X_tes

sklearn.cross_validation.train_test_split用法

from sklearn.cross_validation import train_test_split 在做機器學習專案時，有時候會需要自己手動把資料集分隔成訓練集、交叉驗證集（CV）或者交叉驗證集和測試集，此時可以用到sklearn提供的分隔資料集的函式，以下舉例說明： &g

Python(3) python init()初始化及繼承的實現

這篇文章介紹python中class類初始化函式__init__()實現類屬性的顯示錶示，及python中類的繼承的實現。如下，有父類Animal,在fClass.py中

PyCM 1.8 版本釋出，用 Python 編寫的多類混淆矩陣庫

PyCM 是一個用 Python 編寫的多類混淆矩陣庫，支援輸入資料向量和矩陣，是支援大多數類和統計引數的模型評估工具。主要針對資料科學家，用於預測模型指標、評估各種分類器的準確性。 PyCM 1.8 更新內容如下： Added Lift Score (LS) co

資料正規化 (data normalization) 的原理及實現 (Python sklearn)

原理資料正規化（data normalization）是將資料的每個樣本（向量）變換為單位範數的向量，各樣本之間是相互獨立的．其實際上，是對向量中的每個分量值除以正規化因子．常用的正規化因子有 L1, L2 和 Max．假設，對長度為 n 的向量，其正規化因子 z 的計算公式，如下所示：

K-means演算法及python sklearn實現

目錄前言例項推演 K值的確定輪廓係數 K-means演算法前言根據訓練樣本是否包含標籤資訊，機器學習可以分為監督學習和無監督學習。聚類演算法是典型的無監督學習，其訓練樣本中只包含樣本特徵，不包含樣本的標

python sklearn包——混淆矩陣、分類報告等自動生成

preface：做著最近的任務，對資料處理，做些簡單的提特徵，用機器學習演算法跑下程式得出結果，看看哪些特徵的組合較好，這一系列流程必然要用到很多函式，故將自己常用函式記錄上。應該說這些函式基本上都會用到，像是資料預處理，處理完了後特徵提取、降維、訓練預測、通過混淆矩陣看

Python使用np.c_和np.r_實現數組轉換成矩陣

bubuko 矩陣 auth nbsp 轉換 ima TP 數組連接 python # -*- coding: utf-8 -*-"""Created on Sat Jun 30 14:49:22 2018 @author: zhen""" import numpy as

python中scipy學習——隨機稀疏矩陣及操作

http 坐標 head num value 可選 https import pan 1.生成隨機稀疏矩陣： scipy中生成隨機稀疏矩陣的函數如下： scipy.sparse.rand(m,n,density,format,dtype,random_state) 1

機器學習：評價分類結果（實現混淆矩陣、精準率、召回率）

test set 目的 mod 二分參數 nbsp return try 一、實例　1）構造極度偏差的數據 import numpy as np from sklearn import datasets digits = datasets.load_digits

Python中類方法定義及常用的實現方式

1. python類的屬性和方法檢視 class Person_1: mind = '有思想' belif = '有信仰' animal = '高階動物' def tt(): pass print(Person_1.__dict_

Python中找出陣列或者矩陣每行/每列中個數最多的成員，及出現的次數

在Python中，我們可以用scipy.stats.mode函式尋找陣列或者矩陣每行/每列中最常出現成員以及出現的次數。 from scipy.stats import mode def mode(a, axis=0, nan_policy='propagate'

圖 | 儲存結構：鄰接矩陣及C語言實現

使用圖結構表示的資料元素之間雖然具有“多對多”的關係，但是同樣可以採用順序儲存，也就是使用陣列有效地儲存圖。鄰接矩陣鄰接矩陣(Adjacency Matrix)，又稱陣列表示法，儲存方式是用兩個陣列來表示圖：一個一維陣列儲存圖中頂點本身資訊

特徵選擇——卡方檢驗(使用Python sklearn進行實現)

在看這篇文章之前，如果對卡方檢驗不熟悉，可以先參考：卡方檢驗 Python有包可以直接實現特徵選擇，也就是看自變數對因變數的相關性。今天我們先開看一下如何用卡方檢驗實現特徵選擇。 1. 首先import包和實驗資料： from sklearn.feature_selecti

資料結構-基於鄰接矩陣實現圖的遍歷視覺化及使用Floyd、Dijkstra演算法求解最短路徑（JavaScript實現）

使用 JavaScript 基於鄰接矩陣實現了圖的深度、廣度遍歷，以及 Floyd、Dijkstra 演算法求解最短路徑。另外使用 SVG 實現圖的遍歷視覺化。一、輸入首先，輸入資料主要有兩個，一個是存放節點名的陣列，另一個是存放邊物件的陣列。例如：//存放圖結點的陣列 va

混淆矩陣及confusion_matrix函式的使用

關於混淆矩陣的概念，可參考此篇博文混淆矩陣 1.混淆矩陣混淆矩陣是機器學習中總結分類模型預測結果的情形分析表，以矩陣形式將資料集中的記錄按照真實的類別與分類模型作出的分類判斷兩個標準進行彙總。這個名字來源於它可以非常容易的表明多個類別是否有混淆（也就是一個

Python sklearn庫實現PCA（以鳶尾花分類為例）

PCA簡介主成分分析（Principal Component Analysis，PCA）是最常用的一種降維方法，通常用於高維資料集的探索與視覺化，還可以用作資料壓縮和預處理等。矩陣的主成分就是其協

資料預處理（3） ——資料歸約使用python（sklearn，pandas，numpy）實現

資料預處理的主要任務有：一、資料預處理 1.資料清洗 2.資料整合 3.資料轉換 4.資料歸約 4.資料歸約資料規約技術可以用來得到資料集的規約表示，它小得多，但仍接近於保持原始資料的完整性。也就是說，在規約後的資料集挖掘將更加有效。（1）資料立方體

python sklearn庫實現簡單邏輯迴歸

import xlrd import matplotlib.pyplot as plt import numpy as np from sklearn import model_selection from sklearn.linear_model import Logist

混淆矩陣（交叉表）及Kappa係數的計算

　　交叉分類表，是以兩個不同時期的地理實體型別為橫縱座標的表格。 ①用於參照的時期的型別位於表格的上方，按照橫方向排列 ②用以比較的時期的型別位於表格的左方，垂直排列 ③在橫縱座標上型別的排列順序一致 ④位於對角線上的方格中記錄的是兩個時期的資料集中

Python sklearn.cross_validation.train_test_split及混淆矩陣實現

sklearn.cross_validation.train_test_split隨機劃分訓練集和測試集

plot_confusion_matrix.py（混淆矩陣實現例項）

相關推薦