簡單操作sklearn中內建資料

阿新 • • 發佈：2018-11-24

import matplotlib
from sklearn.model_selection import train_test_split
from sklearn import datasets
dig=datasets.load_digits()#讀入sklearn內建資料 
print(dig.keys())
X=dig.data
y=dig.target
X,y

這段程式碼載入dighits資料，並讀取資料的資訊

執行如下：

some=X[555]#隨便挑選一組資料，作圖，可以看出這組資料是手寫的數字的資料
print(y[555])
some1=some.reshape(8,8)
plt.imshow(some1,cmap=matplotlib.cm.binary)
plt.show()

執行如下：

#使用train_test_split方法劃分資料

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2)
X_train.shape

#使用sklearn庫中的KNN方法

from sklearn.neighbors import KNeighborsClassifier
KNN=KNeighborsClassifier(n_neighbors=3)
KNN.fit(X_train,y_train)#得到模型
y_predict=KNN.predict(X_test)
accuracy=sum(y_predict==y_test)/len(y_test)
print("預測結果準確度：",accuracy)

或者用sklearn中的方法求準確度，兩個結果一樣

from sklearn.metrics import accuracy_score
accuracy_score(y_test,y_predict)

這差不多也算一個簡單的機器學習過程了，輸入資料，建立模型，預測。與完整的相比，還少了資料預處理、模型優化、調參等等優化步驟

超引數：指在執行機器學習演算法之前設定的引數，比如knn中的k

模型引數：演算法過程中學習的引數，knn中沒有模型引數

下面尋找最好的k

best_k=-1
best_score=0.0
for k in range(1,11):
    knn_clf=KNeighborsClassifier(n_neighbors=k)
    knn_clf.fit(X_train,y_train)
    score=knn_clf.score(X_test,y_test)
    if score>best_score:
        best_k=k
        best_score=score
print("best_k=",best_k)
print("best_score=",best_score)

使用網格搜尋方法找最好的超引數的值

#weigths,n_neighbors,p都為knn中的超引數
param_grid=[
    {
        'weights':['uniform'],
        'n_neighbors':[i for i in range (1,11)]
    },
    {
        'weights':['distance'],
        'n_neighbors':[i for i in range (1,11)],
        'p':[i for i in range (1,6)]
    }
]
knn_clf=KNeighborsClassifier()

from sklearn.model_selection import GridSearchCV
grid_search=GridSearchCV(knn_clf,param_grid)

%%time          #得到執行的時間
grid_search.fit(X_train,y_train)

執行結果：

grid_search.best_score_

0.9874739039665971，相比上面的還低些，，，解釋說是機器學習演算法的評估標準不同

grid_search.best_params_#得到最優引數

{'n_neighbors': 3, 'p': 2, 'weights': 'distance'}

knn_clf=grid_search.best_estimator_
knn_clf.score(X_test,y_test)

0.986111111111111

這些就是使用sklearn中的model_selection模組封裝的GridSearchCV方法找到最好超引數的步驟

簡單操作sklearn中內建資料

import matplotlib from sklearn.model_selection import train_test_split from sklearn import datasets dig=datasets.load_digits()#讀入sklearn內建資料 print(

大資料教程（7.5）hadoop中內建rpc框架的使用教程

博主上一篇部落格分享了hadoop客戶端java API的使用，本章節帶領小夥伴們一起來體驗下hadoop的內建rpc框架。首先，由於hadoop的內建rpc框架的設計目的是為了內部的元件提供

Python中四種內建資料型別(list，tuple，set，dict)的區別

List list是一種有序集合，能隨時新增或刪除其中的元素，元素型別可以不一樣,也可以定義一個空list 構造list直接用[ ]將list的所有元素括起來,用逗號分割;通常把list賦值給

python 內建資料結構的基本操作 —— tuple（1）

We saw that lists and strings have many common properties, such as indexing and slicing operations. They are two examples of sequen

python 內建資料結構的基本操作 —— Set（1）

Python also includes a data type for sets. A set is an unordered collection with no duplicate elements. Basic uses include membersh

python 內建資料結構的基本操作 —— dict（2）

A mapping object maps hashable values to arbitrary objects. Mappings are mutable objects. There is currently only one standard mapp

python 內建資料結構的基本操作 —— list（2）

The list data type has some more methods. Here are all of the methods of list objects: list.append(x) Add an item to the end of t

python中內建函數isinstance的用法

pytho class cnblogs 這樣的一個 blog object font 元組 isinstance：Python中的一個內建函數語法： isinstance(object, classinfo) 1、如果參數object是classinfo的實例，

python學習二----內建資料結構

Python內建資料結構學習 1. 列表List 列表list可以實現增加，刪除，查詢操作 >>> list = ['dog','cat','mouse']; >>> list ['dog','cat','mouse'] 1-

scikit-learn內建資料集

scikit-learn 現在最新穩定版本為0.20.0 提供了以下幾個資料集其中資料路徑都在sklearn包下的datasets/data目錄下下面我分別介紹每個資料集 iris iris是個多類別資料集，每個類別下有50個樣本，特徵4維，且都是實數型別, 適用於分類模型 bosto

Unity Shader中內建的座標空間與轉換矩陣函式

模型空間（model space）也稱為物件空間（object space）或區域性空間（local space）是指以模型原點為原點的座標系。世界空間（world space）也稱全域性空間（global space）是以世界原點為原點的座標系，世界座標也就是Unity3D裡的絕對座標。觀

【python學習筆記】39：認識SQLAlchemy,簡單操作Pandas中的DataFrame

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。認識SQLAlchemy SQLAlchemy是Python的ORM工具，就像Java有Hibernate一樣，實現關係型資料庫中的記錄與Python自定義Class的物件的轉化，實現操作之間的對映。

python 學習彙總44：內建資料型別（入門基礎 tcy）

內建型別 2018/11/17 1.資料內建型別 None # 缺少值None表示無，# 是NoneType唯一值 NotImplemented # builtins.NotImplemented未實現 # 數值方法和比較方法未實現所提供運算元

python——內建資料型別（上）

內建資料三大主要型別：數字（整數，浮點數）序列（字串，列表，元組）對映（字典

thinkphp對資料庫操作有哪些內建函式

getModelName() 獲取當前Model的名稱 getTableName() 獲取當前Model的資料表名稱 switchModel(type,vars=array()) 動態切換模型 table() 設定當前操作的資料表 field() 設定要查詢的資料欄位 where

keras中內建的多種損失函式

詳細講解 keras中的損失函式 mean_squared_error

【python】內建資料結構——字典

【引言】如果保持資料有序並不重要而結構很重要，那麼可以考慮python中的另外兩種內建的無序資料結構——字典和集合。 1.字典的概念 1.python字典允許儲存一個鍵/值對集合。在字典中每個唯一鍵有一個與之關聯的值，字典可以包含多個鍵/值對。與鍵關聯的value值可以是任意資料型別

【python】內建資料結構——列表

【引言】python提供了4個內建資料結構，可以用來儲存任何物件集合，它們分別是列表、元組、字典和集合。python有兩個有序的集合資料結構（列表和元組），列表是其中之一。 1. 列表的概念列表是一個有序的可變物件索引集合，列表中的每個物件從0開始編號。與陣列不同的是： 1）列表

python - 內建資料結構總結

python資料型別：數值型別 bool布林型別 str字串型別 list列表型別 tuple元組型別 set集合型別 dict字典型別可變資料型別不可變資料型別： 1.可變資料型別：list set dict（是否可以增刪改查） 2.不可變資料型別：數值 bool str tup

python的四種內建資料結構

對於每種程式語言一般都會規定一些容器來儲存某些資料，就像java的集合和陣列一樣python也同樣有這樣的結構而對於python他有四個這樣的內建容器來儲存資料，他們都是python語言的一部分可以直接使用而無需額外的匯入一.列表　　列表一種跟java和c中的資料很像的一種資料結構，他都是儲存一系

簡單操作sklearn中內建資料

使用網格搜尋方法找最好的超引數的值

相關推薦