機器學習筆記3-拆分資料集和訓練集

阿新 • • 發佈：2019-02-20

拆分資料集和訓練集

from sklearn import cross_validation # for version 0.17
# For version 0.18
# from sklearn.model_selection import train_test_split


### set the random_state to 0 and the test_size to 0.4 so
### we can exactly check your result
features_train, features_test, labels_train, labels_test = cross_validation.train_test_split(
    features,labels
    )

引數說明：

train_data：所要劃分的樣本特徵集
train_target：所要劃分的樣本結果
test_size：樣本佔比，如果是整數的話就是樣本的數量
random_state：是隨機數的種子。
隨機數種子：其實就是該組隨機數的編號，在需要重複試驗的時候，保證得到一組一樣的隨機數。比如你每次都填1，其他引數一樣的情況下你得到的隨機陣列是一樣的。但填0或不填，每次都會不一樣。
隨機數的產生取決於種子，隨機數和種子之間的關係遵從以下兩個規則：
種子不同，產生不同的隨機數；種子相同，即使例項不同也產生相同的隨機數。

機器學習筆記3-拆分資料集和訓練集

機器學習筆記3-拆分資料集和訓練集

誰說菜鳥不會資料分析（工具篇）----- 學習筆記3（資料展現和日報月報自動化）

深入理解Java虛擬機器學習筆記3-執行緒安全和鎖優化

機器學習筆記(3)：多類邏輯回歸

機器學習筆記(3) 隨機森林

誰說菜鳥不會資料分析（工具篇）----- 學習筆記3（資料準備、處理）

機器學習筆記(十一)特徵選擇和稀疏學習

機器學習筆記3：邏輯迴歸

機器學習筆記(3)：多類邏輯迴歸

Stanford機器學習筆記-3.Bayesian statistics and Regularization

用Python開始機器學習（3：資料擬合與廣義線性迴歸）

機器學習筆記之簡化成本函式和梯度下降

機器學習筆記(3)---K-近鄰演算法(1)---約會物件魅力程度分類

[C++ primer學習筆記] 3.2.1 定義和初始化string物件

Java檔案IO學習筆記(五)-刪除資料夾和檔案

機器學習筆記（二）矩陣和線性代數例：用Python實現SVD分解進行圖片壓縮

JVM學習筆記3：GC日誌和常用命令工具

極簡機器學習課程：使用Python構建和訓練一個完整的人工神經網

機器學習中，從樣本集合分得訓練集、測試集的三種方法

機器學習筆記第3課：引數演算法和非引數演算法

機器學習筆記3-拆分資料集和訓練集

相關推薦