機器學習之資料集切分

阿新 • • 發佈：2018-12-23

機器學習之資料集切分

# -*- coding: utf-8 -*-
"""
Created on Mon Dec 10 09:32:55 2018

@author: muli
"""

from sklearn.model_selection import train_test_split,KFold,StratifiedKFold,\
                                    LeaveOneOut,cross_val_score
import  numpy as np

def test_train_test_split():
    '''
    測試  train_test_split 的用法

    :return:  None
    '''
    X=[[1,2,3,4],
       [11,12,13,14],
       [21,22,23,24],
       [31,32,33,34],
       [41,42,43,44],
       [51,52,53,54],
       [61,62,63,64],
       [71,72,73,74]]
    y=[1,1,0,0,1,1,0,0]
    # 切分，測試集大小為原始資料集大小的 40%
    X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.4, random_state=0) 
    print("X_train=",X_train)
    print("X_test=",X_test)
    print("y_train=",y_train)
    print("y_test=",y_test)
    print("----------------")
    # 分層取樣切分，測試集大小為原始資料集大小的 40%
    X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.4,
             random_state=0,stratify=y) 
    print("Stratify:X_train=",X_train)
    print("Stratify:X_test=",X_test)
    print("Stratify:y_train=",y_train)
    print("Stratify:y_test=",y_test)
    

def test_KFold():
    '''
    測試  KFold 的用法

    :return: None
    '''
    X=np.array([[1,2,3,4],
       [11,12,13,14],
       [21,22,23,24],
       [31,32,33,34],
       [41,42,43,44],
       [51,52,53,54],
       [61,62,63,64],
       [71,72,73,74],
       [81,82,83,84]])
    y=np.array([1,1,0,0,1,1,0,0,1])

    folder=KFold(n_splits=3,random_state=0,shuffle=False) # 切分之前不混洗資料集
    for train_index,test_index in folder.split(X,y):
          print("Train Index:",train_index)
          print("Test Index:",test_index)
          print("X_train:",X[train_index])
          print("X_test:",X[test_index])
          print("")
          print("-----------------------")
    
    print("$$$$$$$$$$$$$$$$$$$$$$$$$")
    shuffle_folder=KFold(n_splits=3,random_state=0,shuffle=True) # 切分之前混洗資料集
    for train_index,test_index in shuffle_folder.split(X,y):
          print("Shuffled Train Index:",train_index)
          print("Shuffled Test Index:",test_index)
          print("Shuffled X_train:",X[train_index])
          print("Shuffled X_test:",X[test_index])
          print("")
          print("***************************")


def test_StratifiedKFold():
    '''
    測試  StratifiedKFold 的用法

    :return: None
    '''
    X=np.array([[1,2,3,4],
       [11,12,13,14],
       [21,22,23,24],
       [31,32,33,34],
       [41,42,43,44],
       [51,52,53,54],
       [61,62,63,64],
       [71,72,73,74]])

    y=np.array([1,1,0,0,1,1,0,0])

    folder=KFold(n_splits=4,random_state=0,shuffle=False)
    stratified_folder=StratifiedKFold(n_splits=4,random_state=0,shuffle=False)
    for train_index,test_index in folder.split(X,y):
          print("Train Index:",train_index)
          print("Test Index:",test_index)
          print("y_train:",y[train_index])
          print("y_test:",y[test_index])
          print("")
          print("***************************")
          
    print("$$$$$$$$$$$$$$$$$$$$$$$$$")
    for train_index,test_index in stratified_folder.split(X,y):
          print("Stratified Train Index:",train_index)
          print("Stratified Test Index:",test_index)
          print("Stratified y_train:",y[train_index])
          print("Stratified y_test:",y[test_index])
          print("")
          print("-----------------------")


def test_LeaveOneOut():
    '''
    測試  LeaveOneOut 的用法

    :return: None
    '''
    X=np.array([[1,2,3,4],
       [11,12,13,14],
       [21,22,23,24],
       [31,32,33,34]]
    )
    y=np.array([1,1,0,0])
    print(np.shape(y))
    print(len(y))
    # 已棄用
    # lo=LeaveOneOut(len(y))
    # TypeError: __init__() takes 1 positional argument but 2 were given

    lo=LeaveOneOut().split(X)
    for train_index,test_index in lo:
          print("Train Index:",train_index)
          print("Test Index:",test_index)
          print("X_train:",X[train_index])
          print("X_test:",X[test_index])
          print("")


def test_cross_val_score():
    '''
    測試  cross_val_score 的用法

    :return: None
    '''
    from sklearn.datasets import  load_digits
    from sklearn.svm import  LinearSVC

    digits=load_digits() # 載入用於分類問題的資料集
    X=digits.data
    y=digits.target

    result=cross_val_score(LinearSVC(),X,y,cv=10) # 使用 LinearSVC 作為分類器
    print("Cross Val Score is:",result)

  
if __name__=='__main__':
#    test_train_test_split() # 呼叫 test_train_test_split
#    test_KFold()# 呼叫 test_KFold
#    test_StratifiedKFold()# 呼叫 test_StratifiedKFold
#    test_LeaveOneOut()# 呼叫 test_LeaveOneOut
    test_cross_val_score()# 呼叫 test_cross_val_score

機器學習之資料集切分

機器學習之資料集切分 # -*- coding: utf-8 -*- """ Created on Mon Dec 10 09:32:55 2018 @author: muli """ from sklearn.model_selection import trai

最強資料集集合：50個最佳機器學習公共資料集丨資源

原作 mlmemoirs 郭一璞編譯量子位報道 | 公眾號 QbitAI 外國自媒體mlmemoirs根據github、福布斯、CMU官網等資訊，整理了一張50個最佳機器學習公共資料集的榜單，量子位為大家分享一下~ 提前說兩個須知：尋找資料集の奧義

Python機器學習之資料預處理

# -*- coding: utf-8 -*- """ Created on Sat Sep 29 22:39:26 2018 @author: Lxiao217 email:[email protected] """ #資料預處理 #CSV(comma-srpared values,

機器學習之資料歸一化

器學習中，資料歸一化是非常重要，如果不進行資料歸一化，可能會導致模型壞掉或者訓練出一個奇怪的模型。為什麼要進行資料歸一化現在有一個訓練資料集，包含兩個樣本，內容如下：樣本1 1 200 樣本2 5

最佳機器學習公共資料集

一、去哪裡找資料集 Kaggle：愛競賽的盆友們應該很熟悉了，Kaggle上有各種有趣的資料集，拉麵評級、籃球資料、甚至西雅圖的寵物許可證。 https://www.kaggle.com/ UCI機器學習庫：最古老的資料集源之一，是尋找有趣資料集的第一站。雖然

機器學習之資料標準化處理

機器學習之資料標準化處理 # -*- coding: utf-8 -*- """ Created on Sat Dec 8 16:41:32 2018 @author: muli """ from sklearn.preprocessing import MinM

機器學習之資料歸一化問題

1.機器學習中，為何要經常對資料做歸一化： 1）歸一化後加快了梯度下降求最優解的速度；2）歸一化有可能提高精度。 1)歸一化為什麼能提高梯度下降法求解最優解的速度：如下圖所示，藍色的圈圈圖代表的是兩個特徵的等高線。其中左圖兩個特徵X1和X2的區間相差非常大，X1區間是[0,2000]，

Python與機器學習之資料視覺化(三)

裝飾Matplotlib(標籤、文字、標記、註釋…) 在機器學習實際應用中，最關鍵的部分就是資料視覺化，否則無論除錯還是總結，你無從下手。python大牛們提供了非常牛逼的庫—Matplotlib 回顧詳解影象組成 Figure 在

機器學習之資料預處理（sklearn preprocessing）

資料預處理（data preprocessing）是指在主要的處理以前對資料進行的一些處理。如對大部分地球物理面積性觀測資料在進行轉換或增強處理之前，首先將不規則分佈的測網經過插值轉換為規則網的處理，以利於計算機的運算。另外，對於一些剖面測量資料，如地震資料預處理有垂直疊加、

機器學習之資料清理經驗

文字類資料，尤其二分類，如果正反比懸殊（超過1：10），反例極容易出現包含正例的噪聲（人工標註準確率95%） 1.這時，首先去除反例中和正例完全相同的誤分類（比如新聞，就是標題；聊天資料就是去掉不可見

機器學習之資料預處理 preprocessing

前言對於資料的預處理，沒有固定的步驟。下文寫的僅僅的常規的一些小步驟。具體的預處理，還需要根據資料以及需求來自行處理。====================================PythonSTEP1、匯入依賴包import numpy as np import matplotlib.pypl

機器學習安然資料集分析報告

專案背景安然曾是 2000 年美國最大的公司之一。輝煌時期，市值高達700億美元。2002 年，由於其存在大量的企業欺詐行為，這個昔日的大集團以極快的速度土崩瓦解。在隨後聯邦進行的調查過程中，大量有代表性的保密資訊進入了公眾的視線，包括成千上萬涉及高管的郵件

FPGA機器學習之資料探勘，影象處理，機器視覺，模式識別，人工智慧，機器學習的關係

資料探勘：資料探勘從字面上就已經很好理解了，就是從一堆資料中，挖掘出一些有用的資訊來的過程。比如說，我們的搜尋資料，如果某個地區大部分人都在搜尋MH370，表示他們在關注這個事情。我們就可以推薦一些安全知識，飛機知識過去。同樣的也可能會有蠟燭銷售高潮

Python機器學習之資料探索視覺化庫yellowbrick

背景介紹從學sklearn時，除了演算法的坎要過，還得學習matplotlib視覺化，對我的實踐應用而言，視覺化更重要一些，然而

Python機器學習之資料探索視覺化庫yellowbrick-tutorial

背景介紹從學sklearn時，除了演算法的坎要過，還得學習matplotlib視覺化，對我的實踐應用而言，視覺化更重要一些，然而matplotlib的易用性和美觀性確實不敢恭維。陸續使用過plotly、seaborn，最終定格在了Bokeh，因為它可以與Flask完美的結合，資料看板的開發難度降低了很多。

機器學習實踐（二）—sklearn之資料集

一、可用資料集 Kaggle網址：https://www.kaggle.com/datasets UCI資料集網址： http://archive.ics.uci.edu/ml/ scikit-learn網址：http://scikit-learn.org/sta

機器學習之劃分資料集

目錄轉載自：資料擬閤中的訓練集，測試集，驗證集實際專案中的資料集劃分訓練集和測試集的劃分方法留出法交叉驗證法自助法（BootStrapping）轉載自： https://blog.csdn.net/c369624808/articl

機器學習之大數據集

曲線叠代 ... 問題 alt 流數據疊加沒有 cost 前言以下內容是個人學習之後的感悟，轉載請註明出處~ 簡介　　大數據時代已經來臨，它將在眾多領域掀起變革的巨浪。機器學習對於大數據集的處理也變得越來越重要。大數據集務必會帶來恐

python關聯分析 __機器學習之FP-growth頻繁項集演算法

FP-growth演算法專案背景/目的對於廣告投放而言,好的關聯會一定程度上提高使用者的點選以及後續的諮詢成單對於產品而言,關聯分析也是提高產品轉化的重要手段,也是大多商家都在做的事情,尤其是電商平臺曾經我用SPSS Modeler做過Apriori關聯分析模型,也能

機器學習之FP-growth頻繁項集演算法

FP-growth演算法專案背景/目的對於廣告投放而言,好的關聯會一定程度上提高使用者的點選以及後續的諮詢成單對於產品而言,關聯分析也是提高產品轉化的重要手段,也是大多商家都在做的事情,尤其是電商平臺曾經我用SPSS Modeler做過Apriori關聯分析模型,也能滿足需求,但是效果自然是不及pyt

機器學習之資料集切分

相關推薦