做一個logitic分類之鳶尾花資料集的分類

Iris 鳶尾花資料集是一個經典資料集，在統計學習和機器學習領域都經常被用作示例。資料集內包含 3 類共 150 條記錄，每類各 50 個數據，每條記錄都有 4 項特徵：花萼長度、花萼寬度、花瓣長度、花瓣寬度，可以通過這4個特徵預測鳶尾花卉屬於（iris-setosa, iris-versicolour, iris-virginica）中的哪一品種。

首先我們來載入一下資料集。同時大概的展示下資料結構和資料摘要。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

data = pd.read_csv('./data/iris.csv')
print(data.head())
print(data.info())
print(data['Species'].unique())

   Unnamed: 0  Sepal.Length  Sepal.Width  Petal.Length  Petal.Width Species
0           1           5.1          3.5           1.4          0.2  setosa
1           2           4.9          3.0           1.4          0.2  setosa
2           3           4.7          3.2           1.3          0.2  setosa
3           4           4.6          3.1           1.5          0.2  setosa
4           5           5.0          3.6           1.4          0.2  setosa
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
Unnamed: 0      150 non-null int64
Sepal.Length    150 non-null float64
Sepal.Width     150 non-null float64
Petal.Length    150 non-null float64
Petal.Width     150 non-null float64
Species         150 non-null object
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB
None
['setosa' 'versicolor' 'virginica']

通過上述資料的簡單摘要，我們可以得到鳶尾花一共有三類：

setosa
versicolor
virginica

我們分別用0,1,2來表示['setosa' 'versicolor' 'virginica']

整理

首先，我們對資料集進行一個簡單的整理。我們需要把分類替換成0,1,2

其次，我們把資料集分成兩個分類，一個用來訓練我們的logitic演算法的引數，另外一個用來測試我們的訓練的結果

以下是程式碼：

# 數值替換

data.loc[data['Species']=='setosa','Species']=0
data.loc[data['Species']=='versicolor','Species']=1
data.loc[data['Species']=='virginica','Species']=2
print(data)

     Unnamed: 0  Sepal.Length  Sepal.Width  Petal.Length  Petal.Width  Species
0             1           5.1          3.5           1.4          0.2        0
1             2           4.9          3.0           1.4          0.2        0
2             3           4.7          3.2           1.3          0.2        0
3             4           4.6          3.1           1.5          0.2        0
4             5           5.0          3.6           1.4          0.2        0
..          ...           ...          ...           ...          ...      ...
145         146           6.7          3.0           5.2          2.3        2
146         147           6.3          2.5           5.0          1.9        2
147         148           6.5          3.0           5.2          2.0        2
148         149           6.2          3.4           5.4          2.3        2
149         150           5.9          3.0           5.1          1.8        2

[150 rows x 6 columns]

#分割訓練集和測試集
train_data = data.sample(frac=0.6,random_state=0,axis=0)
test_data = data[~data.index.isin(train_data.index)]

train_data = np.array(train_data)
test_data = np.array(test_data)

train_label = train_data[:,5:6].astype(int)
test_label = test_data[:,5:6].astype(int)

print(train_label[:1])
print(test_label[:1])

train_data = train_data[:,1:5]
test_data = test_data[:,1:5]

print(np.shape(train_data))
print(np.shape(train_label))
print(np.shape(test_data))
print(np.shape(test_label))

[[2]]
[[0]]
(90, 4)
(90, 1)
(60, 4)
(60, 1)

我們需要把label程式設計1ofN的樣式

經過上述兩步的操作，我們可以看到資料集被分成兩個部分。我們接下來對資料進行logitic分類。

train_label_onhot = np.eye(3)[train_label]
test_label_onhot = np.eye(3)[test_label]
train_label_onhot = train_label_onhot.reshape((90,3))
test_label_onhot =  test_label_onhot.reshape((60,3))

print(train_label_onhot[:3])

[[0. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]]

分類

思路

我選選擇先易後難的方法來處理這個問題：

如果我們有兩個分類0或者1的話，我們需要判斷特徵值X（N維）是否可以歸為某個分類。我們的步驟如下:

初始化引數w（1，N）和b(1)
計算 \(z = \sum_{i=0}^{n}w*x + b\)
帶入\(\sigma\)函式得到\(\hat{y}=\sigma(z)\)

現在有多個分類, 我們就需要使用one-to-many的方法去計算。簡單的理解，在本題中，一共有3個分類。我們需要計算\(\hat{y}_1\)來表明這個東西是分類1或者不是分類1的概率 \(\hat{y}_2\)是不是分類2的概率，\(\hat{y}_3\)是不是分類3的概率。然後去比較這三個分類那個概率最大，就是哪個的概率。

比較屬於哪個概率大的演算法，我們用softmat。就是計算\(exp(\hat{y}_1)\),\(exp(\hat{y}_2)\),\(exp(\hat{y}_3)\),然後得到屬於三個分類的概率分別是

p1=\(\frac{exp(\hat{y}_1)}{\sum_{i=0}{3}(\hat{y}_i)}\)
p1=\(\frac{exp(\hat{y}_2)}{\sum_{i=0}{3}(\hat{y}_i)}\)
p1=\(\frac{exp(\hat{y}_3)}{\sum_{i=0}{3}(\hat{y}_i)}\)

我們根據上述思想去計算一條記錄,程式碼如下:

def sigmoid(s):
     return 1. / (1 + np.exp(-s))

w = np.random.rand(4,3)
b = np.random.rand(3)

def get_result(w,b):
    z = np.matmul(train_data[0],w) +b
    y = sigmoid(z)
    return y

y = get_result(w,b)

print(y)

[0.99997447 0.99966436 0.99999301]

上述程式碼是我們只求一條記錄的程式碼，下面我們給他用矩陣化修改為一次計算全部的訓練集的\(\hat{y}\)

def get_result_all(data,w,b):
    z = np.matmul(data,w)+ b
    y = sigmoid(z)
    return y
y=get_result_all(train_data,w,b)
print(y[:10])

[[0.99997447 0.99966436 0.99999301]
 [0.99988776 0.99720719 0.9999609 ]
 [0.99947512 0.98810796 0.99962362]
 [0.99999389 0.99980632 0.999999  ]
 [0.9990065  0.98181945 0.99931113]
 [0.99999094 0.9998681  0.9999983 ]
 [0.99902719 0.98236513 0.99924728]
 [0.9999761  0.99933525 0.99999313]
 [0.99997542 0.99923594 0.99999312]
 [0.99993082 0.99841774 0.99997519]]

接下來我們要求得一個損失函式，來計算我們得到的引數和實際引數之間的偏差，關於分類的損失函式，請看這裡

單個分類的損失函式如下：

\[loss=−\sum_{i=0}^{n}[y_iln\hat{y}_i+(1−y_i)ln(1−\hat{y}_i)]\]

損失函式的導數求法如下

當 \(y_i=0\)時

w的導數為：

\[ \frac{dloss}{dw}=(1-y_i)*\frac{1}{1-\hat{y}_i}*\hat{y}_i*(1-\hat{y}_i)*x_i \]
化簡得到
\[ \frac{dloss}{dw}=\hat{y}*x_i=(\hat{y}-y)*x_i \]

b的導數為

\[ \frac{dloss}{db}=(1-y_i)*\frac{1}{1-\hat{y}_i}*\hat{y}_i*(1-\hat{y}_i) \]
化簡得到
\[\frac{dloss}{db}=\hat{y}-y\]

當\(y_i\)=1時

w的導數

\[ \frac{dloss}{dw}=-yi*\frac{1}{\hat{y}}*\hat{y}(1-\hat{y})*x_i \]
化簡
\[ \frac{dloss}{dw}=(\hat{y}-1)*x_i=(\hat{y}-y)*x_i \]

b的導數

\[\frac{dloss}{dw}=\hat{y}-y\]

綜合起來可以得到
\[ \frac{dloss}{dw}=\sum_{i=0}^{n}(\hat{y}-y)*x_i \]

\[ \frac{dloss}{db}=\sum_{i=0}^{n}(\hat{y}-y) \]

我們只需要根據以下公式不停的調整w和b,就是機器學習的過程
\[w=w-learning_rate*dw\]
\[b=b-learning_rate*db\]

下面我們來寫下程式碼：

learning_rate = 0.0001



def eval(data,label, w,b):
    y = get_result_all(data,w,b)
    y = y.argmax(axis=1)
    y = np.eye(3)[y]
    count = np.shape(data)[0]
    acc = (count - np.power(y-label,2).sum()/2)/count
    return acc

def train(step,w,b):
    y = get_result_all(train_data,w,b)
    loss = -1*(train_label_onhot * np.log(y) +(1-train_label_onhot)*np.log(1-y)).sum()
    
    dw = np.matmul(np.transpose(train_data),y - train_label_onhot)
    db = (y - train_label_onhot).sum(axis=0)
    
    w = w - learning_rate * dw
    b = b - learning_rate * db
    return w, b,loss


loss_data = {'step':[],'loss':[]}
train_acc_data = {'step':[],'acc':[]}
test_acc_data={'step':[],'acc':[]}

for step in range(3000):
    w,b,loss = train(step,w,b)
    train_acc = eval(train_data,train_label_onhot,w,b)
    test_acc = eval(test_data,test_label_onhot,w,b)
    
    loss_data['step'].append(step)
    loss_data['loss'].append(loss)
    
    train_acc_data['step'].append(step)
    train_acc_data['acc'].append(train_acc)
    
    test_acc_data['step'].append(step)
    test_acc_data['acc'].append(test_acc)
    
plt.plot(loss_data['step'],loss_data['loss'])
plt.show()

plt.plot(train_acc_data['step'],train_acc_data['acc'],color='red')
plt.plot(test_acc_data['step'],test_acc_data['acc'],color='blue')
plt.show()
print(test_acc_data['acc'][-1])

[png]

0.9666666666666667

從上述執行結果中來看，達到了96.67%的預測準確度。還不錯！

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    做一個logitic分類之鳶尾花資料集的分類
      做一個logitic分類之鳶尾花資料集的分類

Iris 鳶尾花資料集是一個經典資料集，在統計學習和機器學習領域都經常被用作示例。資料集內包含 3 類共 150 條記錄，每類各 50 個數據，每條記錄都有 4 項特徵：花萼長度、花萼寬度、花瓣長度、花瓣寬度，可以通過這4個特徵預測鳶尾花卉屬於（iris-set 

  
 

    

    
    分類問題（一）：SVM(Python——基於skearn實現鳶尾花資料集分類)
      
                第一步：



# -*- coding: utf-8 -*-
"""
Created on Fri Sep 21 14:26:25 2018

@author: bd04
"""
# !/usr/bin/env python
# encoding: utf-8
__auth 

  
 

    

    
    二分類之IMDB資料集
      電影評論好壞分類(隨筆) 
載入資料集 
from keras.datasets import imdb
(train_data, train_labels),(test_data,test_labels) = imdb.load_data(num_words=10000)
##此處10000是為了保留訓練資 

  
 

    

    
    資料探勘之鳶尾花資料集分析
      
                因為手上沒有iris.data資料，只能通過在sklearn中載入原始資料，並將其轉換為Dataframe格式

主要內容：資料分佈的視覺化（特徵之間分佈、特徵內部、分類精度、熱力圖） 

演算法：決策樹 隨機森林

import pandas as pd
from skle 

  
 

    

    
    實現鳶尾花資料集分類
      
                

轉自：http://blog.csdn.net/jasonding1354/article/details/42143659

引入

一個機器可以根據照片來辨別鮮花的品種嗎？在機器學習角度，這其實是一個分類問題，即機器根據不同品種鮮花的資料進行學習，使其可以對未標記的測 

  
 

    

    
    XGBoost實現對鳶尾花資料集分類預測
      
								
								            
						
                code:import xgboost as xgb
import numpy as np
import pandas as pd
from sklearn.model_selection import 

  
 

    

    
    人工智慧深度學習TensorFlow通過感知器實現鳶尾花資料集分類
       
 
 一.iris資料集簡介 
 iris資料集的中文名是安德森鳶尾花卉資料集，英文全稱是Anderson’s Iris data set。iris包含150個樣本，對應資料集的每行資料。每行資料包含每個樣本的四個特徵和樣本的類別資訊，所以iris資料集是一個150行5列的二維表。 
 通俗地說，iris 

  
 

    

    
    利用線性函式實現鳶尾花資料集分類
      
							
							
							在空間中，我們定義分類的線性函式為：g(x)=wTx+bg(x)=w^{T}x+bg(x)=wTx+b
其中樣本x=(x1,x2,...,xl)Tx=(x_{1},x_{2},...,x_{l})^{T}x=(x1,x2,...,xl)T，權向量w=(w1 

  
 

    

    
    TensorFlow之神經網路簡單實現MNIST資料集分類
       
  
  
 import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data

mnist=input_data.read_data_sets("MNIST_data",one_hot=True)

ba 

  
 

    

    
    TensorFlow之卷積神經網路(CNN)實現MNIST資料集分類
       
  
  
 import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data

mnist=input_data.read_data_sets('MNIST_data',one_hot=True)

#每 

  
 

    

    
    決策樹分類鳶尾花資料集
       
 
 import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeClassifier

iris_ 

  
 

    

    
    Logistics迴歸分類鳶尾花資料集
       
 
 import numpy as np
from sklearn.linear_model import LogisticRegression
import matplotlib.pyplot as plt
import matplotlib as mpl
import pandas as pd
fr 

  
 

    

    
    樸素貝葉斯對鳶尾花資料集進行分類
      注：本人純粹為了練手熟悉各個方法的用法 
使用高斯樸素貝葉斯對鳶尾花資料進行分類 
程式碼： 
 
  1 # 通過樸素貝葉斯對鳶尾花資料進行分類
 2 
 3 from sklearn import datasets
 4 from sklearn.model_selection import train_ 

  
 

    

    
    用EXCEL預處理一個多準則電影評分資料集
       
 
    現在先介紹一下所用的資料集，該資料集是從日本雅虎電影網站爬取的電影評分資料集，共有225045條，18列。 
  
 真正有用的只有電影名，使用者名稱，總體評分，和 
 
  
   
    story 
    role 
    show 
    image 
   

  
 

    

    
    用MySQL預處理一個多準則電影評分資料集
       
 
 與筆者的這篇文章中用到的資料集是一樣的，只是這次換用MySQL，目的是一樣的。 
 用EXCEL預處理一個多準則電影評分資料集 
 想要的預處理結果是： 
 1，將不需要的列刪去， 
 2，將含NULL值的記錄刪去，刪除重複資料 
 3，將整體評分的分值調整為0-5， 
 4，對電影和使用者名稱進行 

  
 

    

    
    yolo 學習筆記分享之--VOC資料集
       
 
 參考： 
 <Pascal VOC & COCO資料集介紹 & 轉換> http://www.cnblogs.com/pprp/p/9629752.html 
 《Pascal Voc資料集詳細分析》https://blog.csdn.net/u01383270 

  
 

    

    
    利用 sklearn SVM 分類器對 IRIS 資料集分類
       
  
  
 利用 sklearn SVM 分類器對 IRIS 資料集分類 
 支援向量機（SVM）是一種最大化分類間隔的線性分類器（如果不考慮核函式）。通過使用核函式可以用於非線性分類。SVM 是一種判別模型，既適用於分類也適用於迴歸問題，標準的 SVM 是二分類器，可以採用 “one vs one”  

  
 

    

    
    基於決策樹模型對 IRIS 資料集分類
       
  
  
 基於決策樹模型對 IRIS 資料集分類 
 
 
  文章目錄
  
   基於決策樹模型對 IRIS 資料集分類
   
    1 python 實現
    
     載入資料集
     視覺化資料集
     分類和預測
     計算準確率
    
    2 基於MATLA 

  
 

    

    
    3-2MNIST資料集分類-簡單版（及優化到98%以上）
       
 
 優化方案:
 1、batch_size = 50 ---> 100 (不會有很大影響只要合理)
 
 2、將學習率劃為變數
     lr = tf.Variable(0.001,dtype=float32)
    &nb 

  
 

    

    
    fastai案例學習（2）——cifar資料集分類
       
 
 
 本文主要介紹fastai的自帶案例，使用fastai實現cifar資料集分類。 
 1、匯入模組。 
 from fastai import *
from fastai.vision import *
from fastai.vision.models.wrn import wrn_22

to