Sklearn-train_test_split隨機劃分訓練集和測試集
阿新 • • 發佈:2022-05-04
sklearn.model_selection.train_test_split隨機劃分訓練集和測試集 官網文件: 一般形式: train_test_split是交叉驗證中常用的函式,功能是從樣本中隨機的按比例選取train data和testdata,形式為: X_train,X_test, y_train, y_test = cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0) 引數解釋: train_data:所要劃分的樣本特徵集 train_target:所要劃分的樣本結果 test_size:樣本佔比,如果是整數的話就是樣本的數量 random_state:是隨機數的種子。 隨機數種子:其實就是該組隨機數的編號,在需要重複試驗的時候,保證得到一組一樣的隨機數。比如你每次都填1,其他引數一樣的情況下你得到的隨機陣列是一樣的。但填0或不填,每次都會不一樣。 隨機數的產生取決於種子,隨機數和種子之間的關係遵從以下兩個規則: 種子不同,產生不同的隨機數;種子相同,即使例項不同也產生相同的隨機數。 示例
data=pd.read_csv('C:\Users\lenovo\Desktop\file\04_add_lastword259_jieba_stopword_506 _all_city.csv')
print(data.info())
# resultList=random.sample(range(1,20),10)
X_train, X_test, y_train, y_test=train_test_split(data,data,test_size = 0.2)
print(len(X_train))
print(len(X_test))