利用Tensorflow的DNN對北京PM2.5資料集Beijing PM2.5 Data Data Set進行分類

阿新 • • 發佈：2019-01-29

課程作業。

分類效果較差，應該是交叉熵那裡出了問題，接下來再改改，先把作業交上去再說。

被評論裡的大兄弟提醒hidden layer是要加啟用函式的！！

資料來源什麼的在上一篇LSTM裡已經提到了。做LSTM的時候已經對資料進行了標準化處理。

這裡我對資料集做了修改，根據PM2.5的濃度將環境汙染程度進行了歸類，1-4級。

直接上程式碼，毫無疑問程式碼肯定又參考過別人了，不過這次改的基本看不出來了。

# -*- coding: utf-8 -*-
"""
Created on Mon Jun 11 19:57:29 2018

@author: Administrator
"""

import tensorflow as tf
import pandas as pd
import numpy as np
import csv

tf.reset_default_graph()

#2 hidden layers was used here
hidden_unit_1 = 30
hidden_unit_2 = 15     
batch_size = 72     
input_size = 7      
output_size = 4  
lr = 0.006          

f = open('C:\\Users\\Administrator\\Desktop\\BJair\\BjAirDat5.csv',encoding='UTF-8')
df = pd.read_csv(f) #read the csv file
#get data, use the data between 2010 ans 1013 for train，the data of 2014 as exam

weatherdata = df.iloc[0:39312, 6:13]  #weather with 7 items, not including PM2.5, for train
pollutiondata = df.iloc[0:39312, 13:14]  #pollution level data, for train
weathertest = df.iloc[39312:, 6:13]    #weatherdata with 7 items, not including PM2.5, for exam
pollutiontest = df.iloc[39312:, 13:14]  #pollution level data, for exam

train_x = weatherdata.values
test_x = weathertest.values

#rebuild lables for train
train_y = []
for i in range(len(pollutiondata)):
    if pollutiondata[i:i+1].values == 1:
        train_y.append([1,0,0,0])
    if pollutiondata[i:i+1].values == 2:
        train_y.append([0,1,0,0])
    if pollutiondata[i:i+1].values == 3:
        train_y.append([0,0,1,0])
    if pollutiondata[i:i+1].values == 4:
        train_y.append([0,0,0,1])

#rebuild lables for test
test_y = []
for i in range(len(pollutiontest)):
    if pollutiondata[i:i+1].values == 1:
        test_y.append([1,0,0,0])
    if pollutiondata[i:i+1].values == 2:
        test_y.append([0,1,0,0])
    if pollutiondata[i:i+1].values == 3:
        test_y.append([0,0,1,0])
    if pollutiondata[i:i+1].values == 4:
        test_y.append([0,0,0,1])      

#placeholder
X = tf.placeholder(tf.float32, [None, input_size])    #a placeholder as the input tensor
Y = tf.placeholder(tf.float32, [None, output_size])   #the lable

def layer(input_tensor, layer_input_size, layer_output_size):
    #a hidden layer: output = w*input + b
    #the dimension is given by dnn(X) and the initial w, b was create randomly.
    w = tf.Variable(tf.random_normal([layer_input_size, layer_output_size]))
    b = tf.Variable(tf.random_normal([layer_output_size]))
    input_ = tf.reshape(input_tensor, [-1, layer_input_size])
    
    output = tf.matmul(input_, w) + b
    return output

    
def dnn(X):
    #here we have 2 hidden layers and one output layer.
    hidden_1 = layer(X, input_size, hidden_unit_1)
    hidden_2 = layer(hidden_1, hidden_unit_1, hidden_unit_2)
    pred = layer(hidden_2, hidden_unit_2, output_size)
    
    #use relu() as Activation function
    output_train = tf.nn.relu(pred)
    #normalize predicted data
    pred_sum = tf.reduce_sum(pred, 1, keep_dims = True)
    pred_normalize = tf.div(pred, pred_sum)
    output_dnn = tf.nn.relu(pred_normalize)
    return output_dnn, output_train


def train_dnn():
    print('start train dnn')
   
    _, logit = dnn(X)
    #use Cross entropy as the loss function.
    #Y is the train_y above, and logit comes from dnn(X)
    cross_entropy = tf.nn.softmax_cross_entropy_with_logits(labels = Y, logits = logit)
    loss = tf.reduce_mean(cross_entropy)
    #use gradient descent method.
    train_op = tf.train.GradientDescentOptimizer(lr).minimize(loss)
    
    saver = tf.train.Saver(tf.global_variables())
    
    with tf.Session() as sess:
        sess.run(tf.global_variables_initializer())    
        for i in range(1000):
            step = 0
            start = 0
            end = start + batch_size
            while(end < len(train_x)):
                loss_ = sess.run([train_op, loss], feed_dict = {X:train_x[start:end], Y:train_y[start:end]})
                
                start += batch_size
                end += batch_size
                if step % 200 == 0:
                    print('round: ' , i , '  step: ' , step, '  loss : ' , loss_)
                if step % 5000 == 0:
                    saver.save(sess, "C:\\Users\\Administrator\\Desktop\\moxing\\model.ckpt")
                    print('save model')
                step += 1
                
#train_dnn() 

def prediction():
    print('start predict')
    
    predict = []
    pred, _ = dnn(X)
    correct_num = 0
    total_num = 0
    saver = tf.train.Saver(tf.global_variables())
    with tf.Session() as sess:
        saver.restore(sess, "C:\\Users\\Administrator\\Desktop\\moxing\\model.ckpt")
        start = 0
        end = start+72
        
        while(end < len(test_x)):
            #get pridicted data from dnn(X)
            pred_class = sess.run(pred, feed_dict = {X:test_x[start:end]})
            #convert the pridicted data to a array contains weather_class.
            pred_class = sess.run(tf.argmax(pred_class, 1))
            predict.append(pred_class)
            #convert the real data to an array contains weather_class
            accurate_class = sess.run(tf.argmax(test_y[start:end], 1))
            #calculate the correct rate
            for i in range(len(accurate_class)):
                if accurate_class[i] == pred_class[i]:
                    correct_num += 1  
                    
            total_num += len(accurate_class)
            start += 72
            end += 72
    
    print('the number of correct classify: ', correct_num, ' in total : ', total_num)
    print('correct rate : ', correct_num/total_num)
    return predict

prediction()

利用Tensorflow的DNN對北京PM2.5資料集Beijing PM2.5 Data Data Set進行分類

課程作業。分類效果較差，應該是交叉熵那裡出了問題，接下來再改改，先把作業交上去再說。被評論裡的大兄弟提醒hidden layer是要加啟用函式的！！資料來源什麼的在上一篇LSTM裡已經提到了。做LSTM的時候已經對資料進行了標準化處理。這裡我對資料集做了修

tensorflow 學習專欄（四）：使用tensorflow在mnist資料集上使用邏輯迴歸logistic Regression進行分類

在面對分類問題時，我們常用的一個演算法便是邏輯迴歸（logistic Regression）在本次實驗中，我們的實驗物件是mnist手寫資料集，在該資料集中每張影象包含28*28個畫素點如下圖所示：我們使用邏輯迴歸演算法來對mnist資料集的資料進行分類，判斷影象所表示的數字

基於Keras的LSTM多變數時間序列預測（北京PM2.5資料集pollution.csv）

基於Keras的LSTM多變數時間序列預測　　傳統的線性模型難以解決多變數或多輸入問題

EL之Boosting之GB：利用梯度提升法解決迴歸(對多變數的資料集+實數值評分預測)問題

EL之Boosting之GB：利用梯度提升法解決迴歸(對多變數的資料集+實數值評分預測)問題輸出結果設計思路核心程式碼 xList = [] labels = [] names = [] firstLine = T

EL之隨機性的Bagging：利用隨機選擇屬性的bagging方法解決迴歸(對多變數的資料集+實數值評分預測)問題

EL之隨機性的Bagging：利用隨機選擇屬性的bagging方法解決迴歸(對多變數的資料集+實數值評分預測)問題輸出結果設計思路核心程式碼 for iTrees in range(numTreesMax):

keras對貓、狗資料集進行分類（三）

使用已訓練模型對貓狗圖片進行測試，以及視覺化模型訓練過程。示例程式碼： # # 視覺化卷積神經網路 # # 人們常說，深度學習模型是“黑盒子”，學習表示難以提取並以人類可讀的形式呈現。 # 雖然對於某些型別的深度學習模型來說這是部分正確的，但對於小行星來說絕對不是這樣。 # 由con

JSONP 跨域Ajax請求，利用js對獲取到的資料進行處理.

先看看獲取到的資料: 前端內容ajax 使用jsonp跨域請求方式,理解如下： JSONP本質: 利用script標籤src跨域訪問，獲得一個回撥函式，再利用回撥函式引數內容獲取返回的資料args img src 亦可以， Form src會被本地同源策略阻

完整實現利用tensorflow訓練自己的圖片資料集

經過差不多一個禮拜的時間的學習，終於把完整的一個利用自己爬取的圖片做訓練資料集的卷積神經網路的實現（基於tensorflow）簡單整理一下思路：獲取資料集（上網爬取，或者直接找公開的圖片資料集） reshape圖片成相同大小（公開資料集一般都是相同sha

資料的差集；利用sql server取兩個資料集的交、差、補集

差集：需求：選出在t1表中但不在t2表中的資料補集： A是B的子集，求A相對於B的補集。 SQLServer中通過intersect,union,except和三個關鍵字對應交、並、差三種集合運算。他們的對應關係可以參考下面圖示測試示例：構造A,B

利用R語言分析挖掘Titanic資料集(一)

簡介一個實際的資料探勘專案包括6個階段 1)提出正確的問題問題本身確定了挖掘的對向與目標 2)資料採集利用檔案的i/o函式，JDBC/ODBC,網路爬蟲技術從不同的系統，例如檔案，資料庫或internet採集資料，稱為原始資料。由於原始資

5cifar100資料集的讀取-5.1/5.2/5.3TensorFlow讀取Cifar100資料集(上/中/下)

ML之多分類預測之PLiR：使用PLiR實現對六類label資料集進行多分類

ML之多分類預測之PLiR：使用PLiR實現對六類label資料集進行多分類輸出結果 [[1.0, 0.0, 0.0, 0.0, 0.0, 0.0], [1.0, 0.0, 0.0, 0.0, 0.0, 0.0], [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],

利用R語言分析挖掘Titanic資料集(二)

6.視別與視覺化技術 1）執行資料的探索與視覺化技術 >barplot(table(train.data$Survived),main="passenger survival",names = c("perished","survived"))

利用faster rcnn 訓練自己的資料集——kitti資料集

前言：非常感謝https://blog.csdn.net/flztiii/article/details/73881954，這篇部落格，本文主要參考這篇文章kitti資料集是一個車輛檢測的資料集資料集的準備Kitti資料集的下載只需要第一個圖片集（12G）和標註檔案即可【第一

利用tensorflow訓練自己的圖片資料集——資料準備

昨天實現了一個簡單的CNN網路。用了MNIST資料集，雖然看來對這個資料集用的很多，但是真正這個資料集是怎麼在訓練的時候被呼叫的，以及怎麼把它換成自己的資料集都是一臉懵。作者給的程式碼是python2.x版本的，我用的python3.5，改了一些錯誤。 import

java利用poi開源庫實現將資料集寫入Excel表格並儲存在本地

一,目前主流的關於讀寫excel表格的有poi 和jxl開源庫，這裡只是簡單的介紹如何poi將資料集寫進Excel表格，並存進本地。二，官網下載poi的相關jar包，網址 http://poi.apache.org/download.html#POI-4.0.1 &nb

利用Caffe建立自己的lmdb資料集

用Caffe進行模型訓練時，除了用現有的公開資料集（如MNIST, CIFAR等），有時候我們還需要建立自己的資料集進行訓練。本篇部落格講的就是如何利用Caffe中的模組建立自己lmdb資料集。資料集準備我們需要自己準備好帶類別標籤的圖片資料，並將資

利用echarts對pm2.5資料進行視覺化處理

echarts是百度提供的資料視覺化js外掛，功能強大，提供各種基本的圖表（尤其世界以及中國各種地圖，方便時空資料的視覺化）；具體看參考http://echarts.baidu.com/ 。本文主要嘗試了四個功能 1. 滑鼠放在地圖某個區上時顯示該區在所給資料

Tensorflow學習教程------利用卷積神經網路對mnist資料集進行分類_利用訓練好的模型進行分類

#coding:utf-8 import tensorflow as tf from PIL import Image,ImageFilter from tensorflow.examples.tutorials.mnist import input_data def imageprepare(ar

利用 sklearn SVM 分類器對 IRIS 資料集分類

利用 sklearn SVM 分類器對 IRIS 資料集分類支援向量機（SVM）是一種最大化分類間隔的線性分類器（如果不考慮核函式）。通過使用核函式可以用於非線性分類。SVM 是一種判別模型，既適用於分類也適用於迴歸問題，標準的 SVM 是二分類器，可以採用 “one vs one”

利用Tensorflow的DNN對北京PM2.5資料集Beijing PM2.5 Data Data Set進行分類

相關推薦