tensorflow2.0——資料預處理

阿新 • • 發佈：2020-08-12

import tensorflow as tf
from tensorflow.keras import optimizers,layers
# 定義資料預處理函式
def preprocess(x,y):
    x = tf.cast(x,dtype=tf.float32) / 255                   #   將特徵資料轉化為float32型別，並縮放到0到1之間
    y = tf.cast(y,dtype=tf.int32)                           #   將標記資料轉化為int32型別
    y = tf.one_hot(y,depth= 10)                             # 
   將標記資料轉為one_hot編碼
    return x,y

def get_data():
    # 載入手寫數字資料
    mnist = tf.keras.datasets.mnist
    (train_x, train_y), (test_x, test_y) = mnist.load_data()
    #   開始預處理資料
        #   訓練資料
    db = tf.data.Dataset.from_tensor_slices((train_x,train_y))          #   將資料特徵與標記組合
    db = db.map(preprocess)                                             # 
   根據預處理函式對組合資料進行處理
    db = db.shuffle(60000).batch(100)                                   #   將資料按10000行為單位打亂，並以100行為一個整體進行隨機梯度下降
        #   測試資料
    db_test = tf.data.Dataset.from_tensor_slices((test_x,test_y))
    db_test = db_test.map(preprocess)
    db_test = db_test.shuffle(10000).batch(100)
    return db,db_test

 
#   測試程式碼
db,db_test = get_data()             #   獲取訓練和測試資料
#   設定超參
iter = 100
learn_rate = 0.01
#   定義模型和優化器
model = tf.keras.Sequential([
    layers.Dense(512, activation='relu'),
    layers.Dense(256, activation='relu'),           #   全連線
    layers.Dense(10)
])
optimizer = optimizers.SGD(learning_rate=learn_rate)            #   優化器

#   迭代程式碼
for i in range(iter):
    for step,(x,y) in enumerate(db):                            #   對每個batch樣本做梯度計算
        # print('x.shape:{},y.shape:{}'.format(x.shape,y.shape))
        with tf.GradientTape() as tape:
            x = tf.reshape(x,(-1,28*28))               #   將28*28展開為784
            out = model(x)
            loss = tf.reduce_mean(tf.square(out-y))
        grads = tape.gradient(loss,model.trainable_variables)               #   求梯度
        grads,_ = tf.clip_by_global_norm(grads,15)                          #   梯度引數進行限幅，防止偏導的nan和無窮大
        optimizer.apply_gradients(zip(grads,model.trainable_variables))     #   優化器進行引數優化
        if step % 100 == 0:
            print('i:{} ,step:{} ,loss:{}'.format(i, step,loss.numpy()))
            #   求準確率
            acc = tf.equal(tf.argmax(out,axis=1),tf.argmax(y,axis=1))
            acc = tf.cast(acc,tf.int8)
            acc = tf.reduce_mean(tf.cast(acc,tf.float32))
            print('acc:',acc.numpy())

tensorflow2.0——資料預處理

import tensorflow as tf from tensorflow.keras import optimizers,layers # 定義資料預處理函式 def preprocess(x,y):

Pytorch 資料載入與資料預處理方式

資料載入分為載入torchvision.datasets中的資料集以及載入自己使用的資料集兩種情況。

pytorch 影象中的資料預處理和批標準化例項

目前資料預處理最常見的方法就是中心化和標準化。中心化相當於修正資料的中心位置，實現方法非常簡單，就是在每個特徵維度上減去對應的均值，最後得到 0 均值的特徵。

pytorch資料預處理錯誤的解決

出錯： Traceback (most recent call last): File \"train.py\",line 305,in <module> train_model(model_conv,criterion,optimizer_conv,exp_lr_scheduler)

python資料預處理方式 :資料降維

資料為何要降維資料降維可以降低模型的計算量並減少模型執行時間、降低噪音變數資訊對於模型結果的影響、便於通過視覺化方式展示歸約後的維度資訊並減少資料儲存空間。因此，大多數情況下，當我們面臨高維資料時，都

python資料預處理 :資料抽樣解析

何為資料抽樣：抽樣是資料處理的一種基本方法，常常伴隨著計算資源不足、獲取全部資料困難、時效性要求等情況使用。

python資料預處理 :資料共線性處理詳解

何為共線性：共線性問題指的是輸入的自變數之間存在較高的線性相關度。共線性問題會導致迴歸模型的穩定性和準確性大大降低，另外，過多無關的維度計算也很浪費時間

python資料預處理 :樣本分佈不均的解決(過取樣和欠取樣)

何為樣本分佈不均：樣本分佈不均衡就是指樣本差異非常大，例如共1000條資料樣本的資料集中，其中佔有10條樣本分類，其特徵無論如何你和也無法實現完整特徵值的覆蓋，此時屬於嚴重的樣本分佈不均衡。

spark | 手把手教你用spark進行資料預處理

本文始發於個人公眾號：TechFlow，原創不易，求個關注今天是spark專題的第七篇文章，我們一起看看spark的資料分析和處理。

python 刪除excel表格重複行,資料預處理操作

使用python刪除excel表格重複行。 # 匯入pandas包並重命名為pd import pandas as pd # 讀取Excel中Sheet1中的資料

Alink漫談(十) ：線性迴歸實現之資料預處理

Alink漫談(十) ：線性迴歸實現之資料預處理目錄 Alink漫談(十) ：線性迴歸實現之資料預處理

數學建模省賽小結：資料預處理（按照關鍵字提取行/列並進行簡單運算）

function []=datapro714()% 處理的資料截止7/14/20% [csvdata,~,rawcsvdata] = xlsread(\'who_covid_19_sit_rep_time_series.csv\');[~,~,rawconfirmed] = xlsread(\'time_series_covid_19_confirmed.csv\');[~,~,r

天池nlp新人賽_task2：資料預處理改進和一些思路

今天想解決下面幾個問題。 1.lightgbm cpu太慢了，我裝了gpu的版本，對比了之後發現訓練速度從10min縮短到8min。感覺很少，不知道是不是我姿勢錯誤。

資料預處理和特徵工程

目錄資料探勘的五大流程資料預處理(preprocessing)資料歸一化資料標準化缺失值處理處理離散型特徵和非數值型標籤處理連續型特徵二值化分箱特徵選擇(feature selection)特徵提取(feature extraction)Filter過濾法方差

情感分析資料預處理過程

# 訓練資料預處理 import numpy as np from sklearn.utils import shuffle import os import matplotlib.pyplot as plt

python有關資料預處理的庫

1、sklearn.preprocessing 資料預處理StandardScaler：如果某個特徵的方差遠大於其它特徵的方差，那麼它將會在演算法學習中佔據主導位置，導致我們的學習器不能像我們期望的那樣，去學習其他的特徵，這將導致最後的模

13-Pandas資料預處理之資料轉換（applymap()、df.map()、df.replace()）

　　在資料分析中，根據需求，有時候需要將一些資料進行轉換，而在Pandas中，實現資料轉換的常用方法有：

13-Pandas資料預處理之資料轉換（啞變數編碼pd.get_dummies()）

說明：本片博文接上篇博文【 Pandas資料預處理之資料轉換（df.map()、df.replace()）】

網站流量日誌分析（模組開發——資料預處理）

目錄資料預處理預處理的程式設計思路問題MapReduce程式設計技巧點選流模型的概述會話（session）程式碼pom.xmllog4j.propertiespreprocess 模組WebLogBeanWebLogMainWebLogMapperpageviews 模組ClickStreamPageViewP

資料預處理總結

1. 離散化　　a) 無序變數離散化—— OneHotEncoder 　　b）有序變數離散化

tensorflow2.0——資料預處理

相關推薦