tf.keras入門(3) Predicting House Prices: Regression（boston_housing 資料集）

阿新 • • 發佈：2018-12-11

預測房價（迴歸）

預測 20 世紀 70 年代中期波士頓郊區房價的中間值。

該資料集包含 13 個不同的特徵：

人均犯罪率。
佔地面積超過 25000 平方英尺的住宅用地所佔的比例。
非零售商業用地所佔的比例（英畝/城鎮）。
查爾斯河虛擬變數（如果大片土地都臨近查爾斯河，則為 1；否則為 0）。
一氧化氮濃度（以千萬分之一為單位）。
每棟住宅的平均房間數。
1940 年以前建造的自住房所佔比例。
到 5 個波士頓就業中心的加權距離。
輻射式高速公路的可達性係數。
每 10000 美元的全額房產稅率。
生師比（按城鎮統計）。
1000 * (Bk - 0.63) ** 2，其中 Bk 是黑人所佔的比例（按城鎮統計）。

較低經濟階層人口所佔百分比。

資料預處理與網路結構

介面解釋

df = pd.DataFrame(train_data, columns=column_names) #　DataFrame 型別類似於資料庫表結構的資料結構，其含有行索引和列索引，

print(df.head()) # 可以將DataFrame 想成是由相同索引的Series組成的Dict型別。

optimizer = tf.train.RMSPropOptimizer(0.001) 一種最優化方法 具體原理之後補上

防止過擬合或者做無用功 patience表示每多少Epoch檢測一次需不需要停止

early_stop = keras.callbacks.EarlyStopping(monitor='val_loss',patience=EPOCHS/20)

# Store training status
history = model.fit(train_data, train_labels, epochs=EPOCHS,
                    validation_split=0.2, verbose=0, 
                    callbacks=[early_stop, PrintDot()])   #verbose 表示是否顯示詳細資訊

test_predictions = model.predict(test_data)
test_predictions = test_predictions.flatten(order='C') #將二維矩陣轉為一維
# C means to flatten in row-major order   (C-style)  default
# F means to flatten in column-major order   (Fortran- style) 
# ‘A’ means to flatten in column-major order if a is Fortran contiguous
#  in memory, row-major order otherwise. ‘K’ means to flatten a in the 
# order the elements occur in memory.

總結

均方誤差 ( $MSE$ ) 是用於迴歸問題的常見損失函式（與分類問題不同）。
同樣，用於迴歸問題的評估指標也與分類問題( $acc$ )不同。常見迴歸指標是平均絕對誤差 ( $MAE$ )。
如果輸入資料特徵的值具有不同的範圍，則應分別縮放每個特徵。
如果訓練資料不多，則選擇隱藏層較少的小型網路，以避免出現過擬合。
早停法( $keras.callbacks.EarlyStopping()$ )是防止出現過擬合的實用技術。（依據每個epoch）

Code

main.py

import tensorflow as tf 
from tensorflow import keras
import numpy as np
import pandas as pd
from plot import plot_history
from matplotlib import pyplot as plt

'''
資料預處理
'''
boston_housing = keras.datasets.boston_housing

(train_data, train_labels), (test_data, test_labels) = boston_housing.load_data()

# shuffle the training set
# 生成train_labels.shape個0~1間的隨機浮點數 
# 然後使用argsort 獲得排序後對應原List中的id 那麼由於之前是random的 
# 就相當於產生了一個隨機排列
order = np.argsort(np.random.random(train_labels.shape))
train_data = train_data[order]
train_labels = train_labels[order]

print("Training Set Size: {}".format(train_data.shape))
print("Testing Set Size: {}".format(test_data.shape))
print("第一個資料：\n",train_data[0])


# 使用 Pandas 庫在格式規範的表格中顯示資料集的前幾行：
column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
                'TAX', 'PTRATIO', 'B', 'LSTAT']


#　DataFrame 型別類似於資料庫表結構的資料結構，其含有行索引和列索引，
# 可以將DataFrame 想成是由相同索引的Series組成的Dict型別。
df = pd.DataFrame(train_data, columns=column_names)  
print(df.head())
# 下面檢視標籤（以千美元為單位）
print(train_labels[0:10])


'''
標準化特徵 

雖然在未進行特徵標準化的情況下，模型可能會收斂，但這樣做會增
加訓練難度，而且使生成的模型更加依賴於在輸入中選擇使用的單位。
'''
# 按照列求平均 （很自然）和 標準差
mean = train_data.mean(axis = 0)
std = train_data.std(axis=0)
train_data = (train_data - mean) / std
test_data = (test_data - mean) / std
print(train_data[0]) # First training sample , normalized


'''
構建模型
'''
def build_model():
    model = keras.Sequential()
    model.add(keras.layers.Dense(64, activation=tf.nn.relu,
                     input_shape = (train_data.shape[1],)))
    model.add(keras.layers.Dense(64, activation=tf.nn.relu))
    model.add(keras.layers.Dense(1))
    optimizer = tf.train.RMSPropOptimizer(0.001)

    model.compile(loss='mse',
                  optimizer = optimizer,
                  metrics=['mae'])# mse:Mean squared error   mae:Mean Abs Error
    return model


model = build_model()
model.summary()
# 可見第一層有896: (13+1)*64 個引數   
# 第二層有4160: (64+1)*64個引數   
# 第三層有65: (64+1)*1個引數


'''
訓練模型
'''
EPOCHS = 500

# Display training progress by 
# printing a single dot for each completed epoch
class PrintDot(keras.callbacks.Callback):
    def on_epoch_end(self, epoch, logs):
        if epoch % 100 ==0 : print('')  # 每一百個換行一次
        print('.',end='')

# The patience parameter is the amount of epochs to check for improvement
# 防止過擬合或者做無用功
early_stop = keras.callbacks.EarlyStopping(monitor='val_loss',patience=EPOCHS/20)


# Store training stats
history = model.fit(train_data, train_labels, epochs=EPOCHS,
                    validation_split=0.2, verbose=0, 
                    callbacks=[early_stop, PrintDot()])   #verbose 表示是否顯示詳細資訊


'''
作LOSS圖
'''
plot_history(history)


'''
在測試集上評估
'''
[loss, mae] = model.evaluate(test_data, test_labels, verbose=1)
print("\nTesting set Mean Abs Error: ${:7.2f}".format(mae * 1000))


'''
預測
'''
test_predictions = model.predict(test_data)
test_predictions = test_predictions.flatten(order='C') 
# C means to flatten in row-major order   (C-style)  default
# F means to flatten in column-major order   (Fortran- style) 
# ‘A’ means to flatten in column-major order if a is Fortran contiguous
#  in memory, row-major order otherwise. ‘K’ means to flatten a in the 
# order the elements occur in memory. 

plt.figure()
plt.scatter(test_labels, test_predictions)
plt.xlabel('True Values [1000$]')
plt.ylabel('Predictions [1000$]')
plt.axis('equal')
plt.xlim(plt.xlim())
plt.ylim(plt.ylim())
_ = plt.plot([-100, 100], [-100, 100]) #參考線
plt.savefig('預測結果與真實值對比.png')

plt.figure()
error = test_predictions - test_labels
n,bins,patches = plt.hist(error, bins = 50) # 分成50塊 檢視每個error區間內對應的數量
plt.xlabel("Prediction Error [1000$]")
_ = plt.ylabel("Count")
plt.savefig('預測誤差.png')

print(type(n),type(bins),type(patches))
print(n,bins)

plt.show()

plot.py

import matplotlib.pyplot as plt
import numpy as np

def plot_history(history):
    Dict = history.history
    plt.figure()
    plt.xlabel('Epoch')
    plt.ylabel('Mean Abs Error [1000$]')
    plt.plot(history.epoch, np.array(Dict['mean_absolute_error']),
                label='Train_Loss')
    plt.plot(history.epoch, np.array(Dict['val_mean_absolute_error']),
                label='Val_Loss')
    plt.legend()
    plt.ylim([0, 5])
    plt.savefig('訓練過程.png')

tf.keras入門(3) Predicting House Prices: Regression（boston_housing 資料集）

預測房價（迴歸）預測 20 世紀 70 年代中期波士頓郊區房價的中間值。該資料集包含 13 個不同的特徵：人均犯罪率。佔地面積超過 25000 平方英尺的住宅用地所佔的比例。非零售商業用地所佔的比例（英畝/城鎮）。查爾斯河虛擬變數（如果大

tf.keras入門(2) Film review text Classification（IMDB 資料集）

影評文字分類使用 IMDB 資料集，其中包含來自網際網路電影資料庫的 50000 條影評文字。將這些影評拆分為訓練集（25000 條影評）和測試集（25000 條影評）。訓練集和測試集之間達成了平衡，意味著它們包含相同數量的正面和負面影評。介面解釋 train_

Go入門自學寶典003-變數（基本資料型別）

003-基礎資料型別 003.1 分類 Go語言內建以下這些基礎型別：型別名稱長度零值說明 Bool 布林型別 1 false 其值不為真即為家，不可以用數字代表true或false Byte 位元組型 1 0 uint8別名 Rune 字元型別 4 0 專用於儲存unicode編

用Keras進行手寫字型識別（MNIST資料集）

資料首先載入資料 from keras.datasets import mnist (train_images, train_labels), (test_images, test_labels) = mnist.load_data() 接下來，看

tf.keras入門(4) Explore over-fitting and under-fitting

探索過擬合與欠擬合我們將探索兩種常見的正則化技術（權重正則化和丟棄），並使用它們改進我們的 IMDB 影評分類筆記本。我們不會像在上一次那樣使用嵌入，而是對句子進行獨熱編碼。該模型將很快過擬合訓練集。它將用來演示何時發生過擬合，以及如何防止過擬合。務必謹記：深度

tf.keras入門(1) Basic Classification（Fashion MNIST資料集）

基本分類（Fashion MNIST）使用tf.keras ，是一種在TensorFlow中構建和訓練模型的高階api 本指南使用 Fashion MNIST 資料集，其中包含 70000 張灰度影象，涵蓋 10 個類別。以下影象顯示了單件服飾在較低解析度（28x28 畫素）下

[tensorflow]tf.keras入門2-分類

目錄模型預測總體程式碼主要介紹基於tf.keras的Fashion MNIST資料庫分類，首先是函式的呼叫，對於tensorflow只有在版本1.2以上的版本才有tf.keras庫。另外推薦使用python3，而不是python2。 # Te

Angular2快速入門-3.多個組件（分離新聞列表頁和詳細頁）

中新 table ref date 入門 log sta ble row 上篇（Angular2快速入門-2.創建一個新聞列表）已經完成新聞列表的展示，並且點擊新聞列表的時候，下面可以展示出新聞的詳細信息，這節我們把新聞詳細和新聞列表頁面分離出來新聞詳細單獨一個comp

Keras學習之3：迴歸問題（boston_housing資料為例）

本實驗使用boston_housing資料集對房價資料進行迴歸分析，資料來自1970年代，波斯頓周邊地區的房價，是用於機器學習的經典資料集。該資料集很小，共計506條資料，分為404個訓練樣本和102個測試樣本，因此需要採用K-Fold，這裡取K=4。每條資料包含1

Hadoop入門-3.HDFS的簡單API（demo）（基於hadoop-2.7.3）

條件準備下載部署下載Hadoop-2.7.3.tar.gz包，可以去官網下載。也可以下載原始碼編譯：點選開啟連結然後部署在Linux上，可以參考點選開啟連結 win下eclipse開發配置通常習慣，

ufldl學習筆記與編程作業：Linear Regression（線性回歸）

cal bug war 環境 art link 行數 ear sad ufldl學習筆記與編程作業：Linear Regression（線性回歸） ufldl出了新教程，感覺比之前的好。從基礎講起。系統清晰，又有編程實踐。在deep learning高質量群裏

JavaWeb學習入門之——圖書館管理系統開發（Hibernate學習1）

pass ica void 技術分享 gets 學習 images 創建 driver 最近看了看JavaWeb的書籍，才感覺到大二時候學的JavaWeb才僅僅只是個入門。最尷尬的當初還沒咋學一直在看.NET，現在看起來JavaWeb，各種框架各種頭疼啊。看了幾個例子之後覺

c語言程序設計第3周編程作業（數字特征）

對數 bsp idt 作業表格技術分享很快 lec .com 題目內容：對數字求特征值是常用的編碼算法，奇偶特征是一種簡單的特征值。對於一個整數，從個位開始對每一位數字編號，個位是1號，十位是2號，以此類推。這個整數在第n位上的數字記作x，如果x和n的奇偶性相同，

C++ Primer Plus第六版編程練習---第3章處理數據（未完待續）

foo ons enter ++ har HA CI return include 1. #include <iostream> const int CONVER_FACTOR = 12; int main(int argc, char* argv[]){ in

Python學習筆記__4.3章匿名函數（簡潔函數）

編程語言 Python # 這是學習廖雪峰老師python教程的學習筆記1、概覽關鍵字lambda表示匿名函數list(map(lambda x: x * x, [1, 2, 3, 4, 5, 6, 7, 8, 9])) # 列表生成式中的 lambda 實際就是def f(x): return

2-3 樹/紅黑樹（red-black tree）

https ret html 技術分享 turn nfc font 進行 sre 2-3 tree 2-3樹節點： null節點，null節點到根節點的距離都是相同的，所以2-3數是平衡樹 2叉節點，有兩個分樹，節點中有一個元素，左樹元素更小，右樹元素節點更大 3叉節點

團隊任務3：每日立會（2018-10-24）

進度 nbsp 原型圖日立序號工程更改軟件主頁團隊序號：2 團隊人員：　　　　項目經理：崔高誠　　產品經理：陳鐵旬　　營銷經理：富春瑞　　軟件工程師：崔伊萌崔鵬崔誌峻崔經洲　　UI工程師：劉迎　進度：　　　　　產品經理：下載頁面原型圖

團隊任務3：每日立會（2018-10-26）

系統經理數據庫表遷移設計軟件產品分享數據庫團隊序號：2 團隊人員：　　　　項目經理：崔高誠　　產品經理：陳鐵旬　　營銷經理：富春瑞　　軟件工程師：崔伊萌崔鵬崔誌峻崔經洲　　UI工程師：劉迎　　進度：　　　　軟件工程師：　　　　　　　　

VS2017 + opencv 3.4.1 配置簡記（window 64位）

step1 下載opencv：下載地址下載完畢後點擊解壓得到將 D:\cv1012\opencv\build\x64\vc15\bin 新增到環境變數 step2 下載VS2017：

PowerShell管道入門，看看你都會不（管道例子大全）

薰薰熊的技術分享社群部落格園首頁新隨筆聯絡訂閱管理隨筆 - 18 文章 - 0 評論 - 42 PowerShell管道入門，看看你都會不（管道例子大全） PowerShell

tf.keras入門(3) Predicting House Prices: Regression（boston_housing 資料集）

預測房價（迴歸）

資料預處理與網路結構

介面解釋

總結

Code

相關推薦