5 sklearn的資料集-datasets

阿新 • • 發佈：2019-01-26

sklearn的資料集-datasets

1 sklearn 強大資料庫

data sets，有很多有用的，可以用來學習演算法模型的資料庫。
eg: boston 房價, 糖尿病, 數字, Iris 花。

主要有兩種：
- 封裝好的經典資料。eg: boston 房價, 糖尿病, 數字, Iris 花。在程式碼中以“load”開頭。
- 自己設計引數，然後生成的資料，例如用來訓練線性迴歸模型的資料（強大）。在程式碼中以“make”開頭

2 文件介紹

2.1 經典資料

例如，點選進入 boston 房價的資料，可以看到 sample 的總數，屬性，以及 label 等資訊。

2.2 構造資料

如果是自己生成資料，按照函式的形式，輸入 sample，feature，target 的個數等等。

sklearn.datasets.make_regression(n_samples=100, n_features=100, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)[source]

3 例子1，房價

# 匯入滿滿的資料庫
from sklearn import 
 datasets
# 分割資料的模組，把資料集分為訓練集和測試集
from sklearn.cross_validation import train_test_split
# 匯入 線性迴歸 方法
from sklearn.linear_model import LinearRegression


# 載入資料
loaded_data = datasets.load_boston()
# 獲取資料的輸入與輸出,sklearn很規則的吧資料分為了data（輸入）與target（輸出）兩部分
data_X = loaded_data.data
data_y = loaded_data.target
# 將資料集分割成 訓練集 與 測試集，切順序是打亂的。其中測試集佔30% 

X_train,X_test,y_train,y_test = train_test_split(data_X,data_y,test_size=0.3)



# 建立模型，可以直接用預設值去建立 model，預設值也不錯，也可以自己改變引數使模型更好。
model = LinearRegression()
# 用 training data 去訓練模型
model.fit(X_train, y_train)


# 再打印出預測值，這裡用 X 的前 4 個來預測，同時列印真實值，作為對比。
print(model.predict(X_test[:4, :]))
print(y_test[:4])

'''
結果如下：

[ 19.56926228  33.20448769  31.89484639  39.34984426]
[ 18.6  33.2  30.3  43.5]
'''

4 例子2：建立虛擬資料並可視化

# 匯入滿滿的資料庫，這裡用它的第二個方面：構造資料
from sklearn import datasets
# 匯入 線性迴歸 方法
from sklearn.linear_model import LinearRegression
# 畫圖工具
import matplotlib.pyplot as plt


# 構造用於迴歸的資料make_regression
# 引數的意思：100個例子，1種特徵，1種輸出，噪聲的大小為5
X,y = datasets.make_regression(n_samples=100,n_features=1,n_targets=1,noise=2)

# 影象化我們剛剛建立的資料
plt.plot(X,y,'o')
plt.show()

可以看到用函式生成的 Linear Regression 用的資料。

noise 越大的話，點就會越來越離散，例如 noise 由 10 變為 50.

5 sklearn的資料集-datasets

sklearn的資料集-datasets 1 sklearn 強大資料庫 data sets，有很多有用的，可以用來學習演算法模型的資料庫。 eg: boston 房價, 糖尿病, 數字, Iris 花。主要有兩種： - 封裝好的經典資料。

[機器學習python實踐(5)]Sklearn實現集成

ace 訓練存在 edi 每一個 predict utf-8 avg score 1,集成集成（Ensemble）分類模型是綜合考量多個分類器的預測結果，從而做出決策。一般分為兩種方式：1）利用相同的訓練數據同時搭建多個獨立的分類模型，然後通過投票的方式，以少數服從多數

5.大資料集

GDScript陣列在記憶體中按速度線性分配。然而，大型陣列（超過數萬個元素）可能導致記憶體碎片。如果這是一個值得關注的特殊型別的陣列是可用的。它們只接受單個數據型別。它們避免記憶體碎片，並且使用較少的記憶體，但是是原子型的，並且通常比通用陣列執行得慢。因此，它們只推薦用於大資料集： PoolByte

【深度學習】8：CNN卷積神經網路與sklearn資料集實現數字識別

前言：這個程式碼是自己閒暇無事時候寫的。因為CNN卷積神經網路用MNIST資料集、sklearn資料集程式碼很多部分都很相似，這一篇就不附詳細說明，原始碼最下。CNN卷積神經網路的工作原理，請詳情參考——【深度學習】5：CNN卷積神經網路原理、MNIST資料

機器學習：sklearn資料集與機器學習組成

二、模型的選擇演算法是核心，資料和計算是基礎。這句話很好的說明了機器學習中演算法的重要性。那麼我們開看下機器學習的幾種分類：監督學習分類 k-近鄰演算法、決策樹、貝葉斯、邏輯迴歸(LR)、支援

sklearn資料集隨機切分（train_test_split）

sklearn學習給定資料集X和類別標籤y，將資料集按一定比例隨機切分為訓練集和測試集。程式碼 #!/usr/bin/env python # -*- coding: utf-8 -*

sklearn資料集分割函式[StratifiedShuffleSplit、split]

sklearn.model_selection.StratifiedShuffleSplit(n_splits=10, test_size=’default’, train_size=None, ra

將sklearn.datasets庫下的資料集儲存到本地Excel表格中

Python下的sklearn庫的datasets模組下有load_breast_cancer（）（乳腺癌資料集），load_iris( ) (鳶尾花)等資料集，將這些資料集儲存在本地，可以很方便觀察，處理這些資料集。這裡以load_breast_cancer()資料集為

BWA0.7+Samtools1.5+GATK4.0在小資料集上的試驗

試驗資料 chr14_1.fastq chr14_2.fastq (1.47G each one .gz) chr14.fasta (28M .gz) chr14.fastq檔案可以在GAGE下載 chr14.fasta檔案可以在UCSC下載軟體的版本： bwa-0.7.

BWA0.7+Samtools1.5+GATK4.0在大資料集上的試驗

試驗資料 fasta:hg38.fa檔案可以在UCSC下載 (hg38.fa.gz 938M) fastq非公開檔案 KY18011403DNA_DHG18153-V_AHHVVHCCXY_L7_1.fq 35G KY18011403DNA_DHG18153-V_AHHVVHCCX

利用 sklearn SVM 分類器對 IRIS 資料集分類

利用 sklearn SVM 分類器對 IRIS 資料集分類支援向量機（SVM）是一種最大化分類間隔的線性分類器（如果不考慮核函式）。通過使用核函式可以用於非線性分類。SVM 是一種判別模型，既適用於分類也適用於迴歸問題，標準的 SVM 是二分類器，可以採用 “one vs one”

機器學習實踐（二）—sklearn之資料集

一、可用資料集 Kaggle網址：https://www.kaggle.com/datasets UCI資料集網址： http://archive.ics.uci.edu/ml/ scikit-learn網址：http://scikit-learn.org/sta

sklearn 劃分資料集

#-*- coding: UTF-8 -*- from sklearn.model_selection import train_test_split def split(dataset, labelset, test_size, train_savefile, test_savefile)

【SciKit-Learn學習筆記】5：核SVM分類和預測乳腺癌資料集

學習《scikit-learn機器學習》時的一些實踐。常用引數引數C SVM分類器svm.SVC()中的引數C即SVM所優化的目標函式 a

==5== ubuntu16.04 python3.5安裝labelImg/labelme工具--製作資料集

真是嘔心瀝血… labelImg git clone https://github.com/tzutalin/labelImg sudo apt-get install pyqt5-dev-tools sudo pip3 install lxml# 安裝lxml，如果報錯，可以試試下

sklearn 學習實踐之——基於自帶資料集（波士頓房價、鳶尾花、糖尿病等）構建分類、迴歸模型

只要是接觸機器學習的，很少有沒聽過sklearn的，這個真的可以稱得上是機器學習快速進行的神器了，在研究生的時候搭建常用的機器學習模型用的就是sklearn，今天應部門的一些需求，簡單的總結了一點使用方法，後面還會繼續更新，今天僅使用sklearn自帶的資料

基於Keras的LSTM多變數時間序列預測（北京PM2.5資料集pollution.csv）

基於Keras的LSTM多變數時間序列預測　　傳統的線性模型難以解決多變數或多輸入問題

【視訊理解資料集彙總】A collection of recent video understanding datasets, under construction!

【視訊理解資料集彙總】’A collection of recent video understanding datasets, under construction!’ by Yao Zhou 原文地址：https://github.com//yoosan/video-understan

sklearn的快速使用之一（資料集探索）

import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from sklearn import datasets from sklearn.decomposition import PCA

sklearn學習-3-樣本資料集

# -*- coding: utf-8 -*- """ Created on Mon Jul 2 16:02:56 2018 @author: GY """ #監督學習 #-------------------------------------------------------------

5 sklearn的資料集-datasets

sklearn的資料集-datasets

1 sklearn 強大資料庫

2 文件介紹

2.1 經典資料

2.2 構造資料

3 例子1，房價

4 例子2：建立虛擬資料並可視化

相關推薦