基於IRIS（鳶尾花）資料集使用sklearn的特徵工程練習

阿新 • • 發佈：2019-01-13

【環境】

Python

需要載入sklearn

【IRIS資料集】

由Fisher在1936年整理，包含4個特徵（Sepal.Length（花萼長度）、Sepal.Width（花萼寬度）、Petal.Length（花瓣長度）、Petal.Width（花瓣寬度）），特徵值都為正浮點數，單位為釐米。目標值為鳶尾花的分類（Iris Setosa（山鳶尾）、Iris Versicolour（雜色鳶尾），Iris Virginica（維吉尼亞鳶尾））。

【練習步驟】

1. 首先載入IRIS的資料集，此資料集在sklearn內已經儲存好。

from sklearn.datasets import load_iris #匯入IRIS資料集 
iris = load_iris()  #特徵矩陣

其中iris.data 包含了四個特徵值，iris.target為目標值。可以打印出來觀察。

2. 資料預處理

選擇歸一化對資料進行無量綱化處理

from sklearn.preprocessing import Normalizer
Normalizer().fit_transform(iris.data)

待續

參考網址：

http://mp.weixin.qq.com/s/_RiW7thoshRNbubONCqgPQ

基於IRIS（鳶尾花）資料集使用sklearn的特徵工程練習

【環境】 Python 需要載入sklearn 【IRIS資料集】由Fisher在1936年整理，包含4個特徵（Sepal.Length（花萼長度）、Sepal.Width（花萼寬度）、Peta

Kitti資料集轉成VOC（xml）資料集格式

本文將kitti資料集中的檢測部分的資料標註轉換成voc格式的xml，用於生成caffe-ssd訓練的lmdb資料，具體資料集自己下載，標註圖片大概七千多張。 kitti格式標註及圖片轉voc格式標註及圖片（主要是扣掉了dontcare部分），具體程式碼如下： #!/usr/bin

Spark中元件Mllib的學習11之使用ALS對movieLens中一百萬條（1M）資料集進行訓練，並對輸入的新使用者資料進行電影推薦

1解釋 spark-1.5.2 資料集：http://grouplens.org/datasets/movielens/ 一百萬條（1M）資料劃分：將樣本評分表以key值切分成3個部分，分別用於訓練 (60%，並加入使用者評分), 校驗 (20

Falcon（一）——資料集管理和資料處理平臺

目的：使終端使用者在面向Hadoop叢集進行資料集處理和資料集管理更加容易。原因在Hadoop環境中，在各種資料集和處理關係之間建立關係在叢集中進行資料集管理例如資料集宣告週期、資料集複製等抓取資料集或者處理過程的血統資訊。允許本地資料和

人工智慧考試——k近鄰演算法對鳶尾花（iris）資料集進行分析

一、題目通過修改提供的k_nn.c檔案，讀取鳶尾花的資料集，其中iris_training_set.txt和iris_test_set.txt分別為訓練集和測試集，兩個資料集中最後一列為類別標籤，其餘列為表示花瓣和萼片長度和寬度的輸入特徵。通過計算測試集中的每個輸入行和訓

基於CNN 的 TensorFlow Mnist 資料集實現（另附識別單幅圖片的源程式）

import tensorflow as tf import numpy as np import mnist_inference import mnist_train_cnn import cv2 import matplotlib.pyplot as plt '''如果自己手寫的圖片是白底黑字的話，可

RDD（彈性分散式資料集）的分析

RDD： Resilient Distributed Dataset(彈性分散式資料集) 彈性：資料集的可恢復型原因：在分散式環境下，運算節點很容易出問題，會造成資料的丟失，rdd可以在資料丟失的背景下恢復資料。資料恢復的技術：1.基本備份 2.基於日誌（hadoop n

Polygon-RNN++ （影象分割資料集自動標註）

一、Polygon-RNN整體架構 Polygon-RNN++（和之前的Polygon-RNN類似）：使用了CNN（卷積神經網路）提取影象特徵。使用RNN（迴圈神經網路）解碼多邊形頂點。為了提高RNN的預測效果。加入了注意力機制（att

tf.keras入門(1) Basic Classification（Fashion MNIST資料集）

基本分類（Fashion MNIST）使用tf.keras ，是一種在TensorFlow中構建和訓練模型的高階api 本指南使用 Fashion MNIST 資料集，其中包含 70000 張灰度影象，涵蓋 10 個類別。以下影象顯示了單件服飾在較低解析度（28x28 畫素）下

TensorFlow車牌識別完整版（含車牌資料集）

在之前釋出的一篇博文《MNIST資料集實現車牌識別--初步演示版》中，我們演示瞭如何使用TensorFlow進行車牌識別，但是，當時採用的資料集是MNIST數字手寫體，只能分類0-9共10個數字，無法分類省份簡稱和字母，侷限性較大，無實際意義。經過影象定位分割處理

SSD-Tensorflow 目標檢測（自定義資料集（VOC2007格式））

一、準備搭建SSD框架，下載解壓即可下載pascalvoc資料，自己的資料根據voc格式改寫（圖片的名稱，不用拘泥於6位數字，其他命名也可以）資料集下載點選解壓後不要混合在一個資料夾下 VOCtrainval用來訓練，VOCtest用來測試。 VOCtrai

構建決策樹和svm模型（某金融資料集）

根據金融資料集作出的決策樹和svm模型 # 匯入需要的包 import pandas as pd from sklearn.linear_model import LogisticRegression from sklearn.model_selection i

基於R的資料探勘方法與實踐（1）——資料準備

1、資料檢查資料檢查是資料探勘的第1步，從不同的維度檢查資料，找出其中有問題的資料以便對其進行修正。 1.1 資料型別檢視資料的構成與形態，尤其是各列的屬性。 > library(MASS) > data(ChickWeight) > str(Chic

python資料預處理（抽樣、資料集轉換）

博文：python大規模資料處理技巧之二：機器學習中常用操作（http://blog.csdn.net/asdfg4381/article/details/51725424） 1、資料預處理隨機化操作機器學習中的常用隨機化操作中可以使用random包做不重

基於MFC的USB上位機開發（3）資料傳輸模組

延伸閱讀：基於MFC的USB上位機開發（1）概述基於MFC的USB上位機開發（2）速度測試模組基於MFC的USB上位機開發（3）資料傳輸模組基於MFC的USB上位機開發（4）環路模組基於MFC的USB上位機開發（5）下環路模組目錄 1. 設計思路 1.

R語言學習二（包與資料集）

R語言安裝包什麼是R語言的包？我們可以把它視為一種擴充套件R基本功能的機制，包本身也集成了眾多的函式。在使用R的過程中如果我們要使用某些函式，而當前R裡面沒有的話，我們通常可以去查詢那些與其相關的包，那些包裡面通常已經包含了其他開發者開發好的功能，我們

計算機視覺（影象分類、檢測、分割）資料集和比賽

1 ImageNet資料集和ILSVRC Imagenet資料集是目前深度學習影象領域應用得非常多的一個數據集，關於影象分類、定位、檢測等研究工作大多基於此資料集展開。Imagenet資料集有1400多萬幅圖片，涵蓋2萬多個類別；其中有超過百萬的圖片有明確的類

rdf（圖資料）資料集釋出：醫療診斷用藥方面的

醫療診斷患病資料集資料集介紹該資料集是rdf資料集，關於理療的，裡面有診斷，有用藥等，線上展示僅僅展示了其中一部分資料，下載nt格式的資料，可以獲取完整的資料集。利用這些資料集，你可以進行sparql查詢，進行實體關係識別，進行醫療資料探勘，

Kaggle--泰坦尼克號失蹤者生死情況預測原始碼（附Titanic資料集）

資料視覺化分析import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np titanic=pd.read_csv('train.csv') #pri

基於Metronic的Bootstrap開發框架經驗總結（7）--資料的匯入、匯出及附件的檢視處理

在很多系統模組裡面，我們可能都需要進行一定的資料交換處理，也就是資料的匯入或者匯出操作，這樣的批量處理能給系統使用者更好的操作體驗，也提高了使用者錄入資料的效率。我在較早時期的EasyUI的Web框架上，也介紹過通過Excel進行的資料匯入匯出操作，隨筆文章為《基於MVC4+EasyUI的Web開發框架經驗總

基於IRIS（鳶尾花）資料集使用sklearn的特徵工程練習

相關推薦