python庫sklearn中的一些函數(更新ing...)
阿新 • • 發佈:2018-12-25
算法 str type 文檔 blog and 類別 num ont
sklearn是python的重要機器學習庫,其中封裝了大量的機器學習算法,如:分類、回歸、降維以及聚類;還包含了監督學習、非監督學習、數據變換三大模塊。sklearn擁有完善的文檔,使得它具有了上手容易的優勢;它內置了大量的數據集,節省了獲取和整理數據集的時間。因而,使其成為了廣泛應用的重要的機器學習庫。
學習連接:http://www.cnblogs.com/lianyingteng/p/7811126.html
下面是自己用到的一些函數:
1. train_test_split
這個函數是用來將總的數據集劃分為訓練集和測試集的
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=4)
參數:
1. X - 特征集
2. y - 標簽集
3. 0-1之前表示的測試集占比,整數的話表示測試集樣本數
4. 隨機數種子,為1的話表示每次產生隨機數一樣
2. to_categorical(y, num_classes=None, dtype=‘float32‘)
將整形標簽轉為onehot
Y_train = np_utils.to_categorical(y_train, nb_classes)
Y_test = np_utils.to_categorical(y_test, nb_classes)
參數:
1. int數組
2. 標簽類別總數
python庫sklearn中的一些函數(更新ing...)