案例一：鳶尾花資料的分類

阿新 • • 發佈：2020-11-05

一：準備資料

1.1：讀入資料集

from sklearn.datasets import load_iris
from sklearn import datasets
import pandas
import matplotlib.pyplot as plt

x_data = datasets.load_iris().data
y_data = datasets.load_iris().target
print(x_data.shape)
print(y_data.shape)

1.2：資料集亂序

print(y_data)

# seed()+shuffle
import random

seed=10
random.seed(seed)
random.shuffle(x_data)
random.seed(seed)# 一定得重複在寫一遍,和上面的seed要相同,不然y_batch和x_batch打亂順序會不一樣
random.shuffle(y_data)

print(y_data)

1.3：生成訓練集和測試集

from sklearn.model_selection import train_test_split
(X_train,X_test,y_train,y_test) = train_test_split(x_data, y_data, train_size=0.8, random_state=seed)
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

1.4：（特徵 - 標籤）配對，且每次只讀入一部分（batch）進行訓練

import tensorflow as tf
# import tensorflow.compat.v1 as tf
# tf.enable_eager_execution()

train_data = tf.data.Dataset.from_tensor_slices((X_train, y_train)).batch(30)
test_data = tf.data.Dataset.from_tensor_slices((X_test, y_test)).batch(30)

batch(30)：以每組30個的形式，喂入模型時以bacth為單位。一般選2的冪次。

# DatasetV1Adapter型別
train_data
test_data

二：搭建網路

定義神經網路中所有可訓練引數

w1 = tf.Variable(tf.random.truncated_normal([4,3], stddev=0.1, seed=1, dtype=tf.float64))
b1 = tf.Variable(tf.random.truncated_normal([3], stddev=0.1, seed=1, dtype=tf.float64))

因為X的特徵有4個，所以第一層有4個輸入。
且最終分類結果只有3個，所以最後一層輸入為3
又因為模型只有兩層，所以第一層的輸出 = 下一層的輸入，為3。
所以：

w1維度為：(4, 3)
b1維度為：(3, )

lr = 0.1  # 學習率為0.1
train_loss_results = []  # 將每輪的loss記錄在此列表中，為後續畫loss曲線提供資料
test_acc = []  # 將每輪的acc記錄在此列表中，為後續畫acc曲線提供資料
epoch = 500  # 迴圈500輪
loss_all = 0  # 每輪分4個step，loss_all記錄四個step生成的4個loss的和

三：引數優化

巢狀迴圈迭代，with結構更新引數，顯示當前loss

for epoch in range(epoch):# 資料集級別迭代
    for step,(x_train,y_train) in enumerate(train_data):# batch級別迭代
        with tf.GradientTape() as tape: # 記錄梯度資訊
            # 正向傳播
            y = tf.matmul(x_train, w1) + b1 # 神經網路乘、加運算
            y = tf.nn.softmax(y) # 使分類輸出轉換成概率的形式，（注意：此操作後，與獨熱碼同量級，可相減求loss）
            y_one_hot = tf.one_hot(y_train, depth=3, dtype=tf.float64)# 將標籤值轉換成獨熱碼格式，方便計算loss和acc
            
            # 計算損失loss
            loss = tf.reduce_mean(tf.square(y_one_hot - y))
#            # 這兩句話的區別是 loss = tf.reduce_mean(tf.square(y_one_hot, y))
            loss_all += loss.numpy()

        # 計算loss對各個引數的梯度（導數）
        grads = tape.gradient(loss, [w1, b1])
        
        # 梯度自更新 w1 = w1 - lr*grads[0]; b1 = b1- lr*grads[1]
        w1.assign_sub(lr*grads[0])
        b1.assign_sub(lr*grads[1])  
    print("Epoch {}, loss: {}".format(epoch, loss_all/4))
    train_loss_results.append(loss_all / 4)
    loss_all = 0
    
    # 求模型的準確率
    total_correct, total_number = 0, 0
    for x_test, y_test in test_data:
        y = tf.matmul(x_test, w1)+b1 # 模型對三個分類的預測概率
        y = tf.nn.softmax(y) # 對y進行歸一化
        pred = tf.argmax(y, axis=1) # 獲取概率值最大的下標（也就是獲取y的分類）
        pred = tf.cast(pred, dtype=y_test.dtype)
        # 若分類正確，則correct=1，否則為0
        correct = tf.cast(tf.equal(pred, y_test), dtype=tf.int32)
        total_correct += int(tf.reduce_sum(correct)) # 把一個批次的分類結果累加起來，儲存到變數中
        total_number += x_test.shape[0]

    acc = total_correct / total_number
    test_acc.append(acc)
    print("Test acc: ", acc)
    print("-----------------------------------------------")

這裡的 y 相當於是 y_predict，y_test 相當於y_true。通過softmax將 y 轉換成符合概率分佈的概率值（不是很理解為什麼要加這一步，不加好像也可以）。

因為 y 的維度為[batch, 3]，y_test 的維度為 [batch, 1]。採取的方法是將 y_test 轉換成（三維）獨熱編碼。

損失函式 loss 即為兩者的方差。

acc/loss視覺化

plt.title("Loss Function Curve")
plt.xlabel("Epoch")
plt.ylabel("Loss")
# 畫出trian_loss_results曲線，且連線圖示是Loss
plt.plot(train_loss_results, label="$Loss$")
# 畫出曲線的圖示（右上角）
plt.legend()
plt.show()

plt.title("Acc Curve")
plt.xlabel("Epoch")
plt.ylabel("Acc")
plt.plot(test_acc, label="$Accuracy$")# 連線圖示是Accuracy
plt.legend()
plt.show()

案例一：鳶尾花資料的分類

一：準備資料 1.1：讀入資料集 from sklearn.datasets import load_iris from sklearn import datasets

阿里天池訓練營day05：鳶尾花資料集貝葉斯分類

技術標籤：天池機器學習文章目錄 1. 內容簡介2. 演算法實踐2.1 Step1: 庫函式匯入2.2 Step2: 資料匯入&分析2.3 Step3: 模型訓練2.4 Step4: 模型預測2.5 Step5: 原理簡析

Spring-IoC-DI-基於xml的依賴注入-使用set方法進行注入（案例一：注入基本屬性）

案例一：注入基本屬性（1）建立類，定義屬性和對應的set方法 package com.orz.spring.test1;

Spring-IoC-DI-基於註解方式的依賴注入（案例一：簡單物件建立）

1.什麼是註解（1）註解是程式碼特殊標記，格式：@註解名稱(屬性名稱=屬性值,屬性名稱=屬性值…)

故事案例一：python應用

技術標籤：basecodepython 密室逃脫之解出密碼背景：你和你的小夥伴帶著一臺電腦，被囚禁在一個密室之中。

java學習筆記一：基本資料型別

技術標籤：JAVA學習筆記一、基本資料型別 java中存在8大基本資料型別，每種型別佔用位元組如下：位元組型：byte---->1位元組短整型：short—>2位元組整型: int—>4位元組長整型: long–> 8位元組

ALINK(十一)：載入資料集 (四)Table資料讀入 (TableSourceBatchOp)

Java 類名：com.alibaba.alink.operator.batch.source.TableSourceBatchOp Python 類名：TableSourceBatchOp

好大一棵樹，新春的祝福（一）：n級分類的資料結構

這個樹的結構幾年前在csdn裡面也發過了一次，現在看看，主體結構居然沒有什麼變化，用了這麼長的時間，自我感覺還是很好用的。而且在這個基礎之上把其他的功能也都給聯絡起來了，比如“通用許可權”、配置

機器學習基礎+實踐（一）：鳶尾花分類

一些概念機器學習的前身人為指定決策規則。人為指定決策規則適合處理人們非常熟悉處理過程的應用，一旦資料量過大、資料處理過程複雜或者任務有所變化，就需要機器學習上場了

python KNN演算法實現鳶尾花資料集分類

一、knn演算法描述 1.基本概述 knn演算法，又叫k-近鄰演算法。屬於一個分類演算法，主要思想如下：

java資料結構與演算法一：稀疏陣列

稀疏陣列 ps：記錄韓順平資料結構與演算法一、需求分析因為二維陣列的很多值是預設值0，因此記錄了很多沒有意義的資料，可採用稀疏陣列解決此問題。

tensorflow2.0——鳶尾花資料集的一元分類

import tensorflow as tf import numpy as np import pandas as pd import matplotlib.pylab as plt import matplotlib as mpl

案例應用：給照片資料夾裡照片按日期排序後引用表格的照片名稱批量重新命名（原始碼）

1 ################################################################# 2 #### 程式名稱：給照片資料夾裡照片按日期排序後引用表格的照片名稱批量重新命名###

C#檔案操作一：檔案與資料夾的簡單操作

static void Main(string[] args) { //檔案操作 FileInfo fileInfo = new FileInfo(\"TextFile1.txt\"); Console.WriteLine(fileInfo.Exists);

00031-layui 樹形下拉選擇 xmSelect（一）：樹資料一次載入

【第17期Datawhale | 零基礎入門金融風控-貸款違約預測】Task02打卡：探索性資料分析【pandas_profiling生成資料報告異常，解決後單開一篇】

零基礎入門金融風控-貸款違約預測 Task02 探索性資料分析 Task02目的: 熟悉整體資料集的基本情況,異常值,缺失值等, 判斷資料集是否可以進行接下來的機器學習或者深度學習建模.

資料型別（一）：基本資料型別

Java中的資料型別分為：基本資料型別和引用資料型別基本資料型別 Java中的基本資料型別一共有八種, 主要分為三大類: 數字型(整型和浮點型)、字元型、布林型

資料結構：八大資料結構分類

>>> 資料結構是指相互之間存在著一種或多種關係的資料元素的集合和該集合中資料元素之間的關係組成。常用的資料結構有：陣列，棧，連結串列，佇列，樹，圖，堆，散列表等，如圖所示：

資料庫實驗一：實驗環境和資料準備

實驗一實驗環境和資料準備 1.目的與要求：（1）熟悉SQL Server2008環境（2）基本掌握視覺化方法建立資料庫和表的方法 2.實驗準備：（1）安裝好資料庫管理系統（2）規劃好所建立資料庫（參見P79,82,83）

資料結構實驗一：單鏈表就地翻轉

核心程式碼： public static void List_Inverse(ListNode h) { ListNode p = h.getNext(), q; while (p.next != null) {

案例一：鳶尾花資料的分類

一：準備資料

二：搭建網路

三：引數優化

acc/loss視覺化

相關推薦