1. 程式人生 > >基於IRIS(鳶尾花)資料集使用sklearn的特徵工程練習

基於IRIS(鳶尾花)資料集使用sklearn的特徵工程練習

【環境】

Python 

需要載入sklearn

【IRIS資料集】

由Fisher在1936年整理,包含4個特徵(Sepal.Length(花萼長度)、Sepal.Width(花萼寬度)、Petal.Length(花瓣長度)、Petal.Width(花瓣寬度)),特徵值都為正浮點數,單位為釐米。目標值為鳶尾花的分類(Iris Setosa(山鳶尾)、Iris Versicolour(雜色鳶尾),Iris Virginica(維吉尼亞鳶尾))。

【練習步驟】

1. 首先載入IRIS的資料集,此資料集在sklearn內已經儲存好。

from sklearn.datasets import load_iris #匯入IRIS資料集 
iris = load_iris()  #特徵矩陣 

其中iris.data 包含了四個特徵值,iris.target為目標值。可以打印出來觀察。



2. 資料預處理

選擇歸一化對資料進行無量綱化處理

from sklearn.preprocessing import Normalizer
Normalizer().fit_transform(iris.data)


待續

參考網址:

http://mp.weixin.qq.com/s/_RiW7thoshRNbubONCqgPQ

相關推薦

基於IRIS鳶尾花資料使用sklearn特徵工程練習

【環境】 Python  需要載入sklearn 【IRIS資料集】 由Fisher在1936年整理,包含4個特徵(Sepal.Length(花萼長度)、Sepal.Width(花萼寬度)、Peta

Kitti資料轉成VOCxml資料格式

本文將kitti資料集中的檢測部分的資料標註轉換成voc格式的xml,用於生成caffe-ssd訓練的lmdb資料,具體資料集自己下載,標註圖片大概七千多張。 kitti格式標註及圖片轉voc格式標註及圖片(主要是扣掉了dontcare部分), 具體程式碼如下: #!/usr/bin

Spark中元件Mllib的學習11之使用ALS對movieLens中一百萬條1M資料進行訓練,並對輸入的新使用者資料進行電影推薦

1解釋 spark-1.5.2 資料集:http://grouplens.org/datasets/movielens/ 一百萬條(1M) 資料劃分: 將樣本評分表以key值切分成3個部分,分別用於訓練 (60%,並加入使用者評分), 校驗 (20

Falcon——資料管理和資料處理平臺

目的: 使終端使用者在面向Hadoop叢集進行資料集處理和資料集管理更加容易。 原因 在Hadoop環境中,在各種資料集和處理關係之間建立關係 在叢集中進行資料集管理例如資料集宣告週期、資料集複製等 抓取資料集或者處理過程的血統資訊。 允許本地資料和

人工智慧考試——k近鄰演算法對鳶尾花iris資料進行分析

一、題目 通過修改提供的k_nn.c檔案,讀取鳶尾花的資料集,其中iris_training_set.txt和iris_test_set.txt分別為訓練集和測試集,兩個資料集中最後一列為類別標籤,其餘列為表示花瓣和萼片長度和寬度的輸入特徵。通過計算測試集中的每個輸入行和訓

基於CNN 的 TensorFlow Mnist 資料實現 另附識別單幅圖片的源程式

import tensorflow as tf import numpy as np import mnist_inference import mnist_train_cnn import cv2 import matplotlib.pyplot as plt '''如果自己手寫的圖片是白底黑字的話,可

RDD彈性分散式資料的分析

RDD: Resilient Distributed Dataset(彈性分散式資料集) 彈性:資料集的可恢復型 原因:在分散式環境下,運算節點很容易出問題,會造成資料的丟失,rdd可以在資料丟失的背景下恢復資料。 資料恢復的技術:1.基本備份 2.基於日誌(hadoop n

Polygon-RNN++ 影象分割資料自動標註

一、Polygon-RNN整體架構 Polygon-RNN++(和之前的Polygon-RNN類似): 使用了CNN(卷積神經網路)提取影象特徵。 使用RNN(迴圈神經網路)解碼多邊形頂點。為了提高RNN的預測效果。 加入了注意力機制(att

tf.keras入門(1) Basic ClassificationFashion MNIST資料

基本分類(Fashion MNIST) 使用tf.keras ,是一種在TensorFlow中構建和訓練模型的高階api 本指南使用 Fashion MNIST 資料集,其中包含 70000 張灰度影象,涵蓋 10 個類別。以下影象顯示了單件服飾在較低解析度(28x28 畫素)下

TensorFlow車牌識別完整版含車牌資料

在之前釋出的一篇博文《MNIST資料集實現車牌識別--初步演示版》中,我們演示瞭如何使用TensorFlow進行車牌識別,但是,當時採用的資料集是MNIST數字手寫體,只能分類0-9共10個數字,無法分類省份簡稱和字母,侷限性較大,無實際意義。 經過影象定位分割處理

SSD-Tensorflow 目標檢測自定義資料VOC2007格式

一、準備 搭建SSD框架,下載解壓即可 下載pascalvoc資料,自己的資料根據voc格式改寫(圖片的名稱,不用拘泥於6位數字,其他命名也可以)資料集下載點選 解壓後不要混合在一個資料夾下 VOCtrainval用來訓練,VOCtest用來測試。 VOCtrai

構建決策樹和svm模型某金融資料

根據金融資料集作出的決策樹和svm模型 # 匯入需要的包 import pandas as pd from sklearn.linear_model import LogisticRegression from sklearn.model_selection i

基於R的資料探勘方法與實踐1——資料準備

1、資料檢查 資料檢查是資料探勘的第1步,從不同的維度檢查資料,找出其中有問題的資料以便對其進行修正。 1.1 資料型別 檢視資料的構成與形態,尤其是各列的屬性。 > library(MASS) > data(ChickWeight) > str(Chic

python資料預處理抽樣、資料轉換

博文:python大規模資料處理技巧之二:機器學習中常用操作(http://blog.csdn.net/asdfg4381/article/details/51725424) 1、 資料預處理 隨機化操作 機器學習中的常用隨機化操作中可以使用random包做不重

基於MFC的USB上位機開發3資料傳輸模組

延伸閱讀: 基於MFC的USB上位機開發(1)概述 基於MFC的USB上位機開發(2)速度測試模組 基於MFC的USB上位機開發(3)資料傳輸模組 基於MFC的USB上位機開發(4)環路模組 基於MFC的USB上位機開發(5)下環路模組 目錄 1. 設計思路 1.

R語言學習二包與資料

R語言安裝包 什麼是R語言的包? 我們可以把它視為一種擴充套件R基本功能的機制,包本身也集成了眾多的函式。在使用R的過程中如果我們要使用某些函式,而當前R裡面沒有的話,我們通常可以去查詢那些與其相關的包,那些包裡面通常已經包含了其他開發者開發好的功能,我們

計算機視覺影象分類、檢測、分割資料和比賽

1 ImageNet資料集和ILSVRC Imagenet資料集是目前深度學習影象領域應用得非常多的一個數據集,關於影象分類、定位、檢測等研究工作大多基於此資料集展開。Imagenet資料集有1400多萬幅圖片,涵蓋2萬多個類別;其中有超過百萬的圖片有明確的類

rdf資料資料釋出:醫療診斷用藥方面的

醫療診斷患病資料集 資料集介紹 該資料集是rdf資料集,關於理療的,裡面有診斷,有用藥等,線上展示僅僅展示了其中一部分資料,下載nt格式的資料,可以獲取完整的資料集。 利用這些資料集,你可以進行sparql查詢,進行實體關係識別,進行醫療資料探勘,

Kaggle--泰坦尼克號失蹤者生死情況預測原始碼附Titanic資料

資料視覺化分析import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np titanic=pd.read_csv('train.csv') #pri

基於Metronic的Bootstrap開發框架經驗總結7--資料的匯入、匯出及附件的檢視處理

在很多系統模組裡面,我們可能都需要進行一定的資料交換處理,也就是資料的匯入或者匯出操作,這樣的批量處理能給系統使用者更好的操作體驗,也提高了使用者錄入資料的效率。我在較早時期的EasyUI的Web框架上,也介紹過通過Excel進行的資料匯入匯出操作,隨筆文章為《基於MVC4+EasyUI的Web開發框架經驗總