2-3動手學習深度學習-kaggle房價預測

阿新 • • 發佈：2018-12-19


%matplotlib inline
import gluonbook as gb
from mxnet import autograd,gluon,init,nd
from mxnet.gluon import data as gdata,loss as gloss,nn
import pandas as pd
import numpy as np

# 讀入資料
train_data=pd.read_csv('../data/kaggle_house_pred_train.csv')
test_data=pd.read_csv('../data/kaggle_house_pred_test.csv')

# print(train_data.shape) (1460, 81)
# print(test_data.shape) (1459, 80)
# train_data.iloc[0:4, [0, 1, 2, 3, -3, -2, -1]]  先按照行來索引 前 4 個樣本的前 4 個特徵、後 2 個特徵和標籤（SalePrice）
# 第一個特徵是 Id，它能幫助模型記住每個訓練樣本
# ，但難以推廣到測試樣本，所以我們不使用它來訓練。我們將所有的訓練和測試資料的 79 個特徵按樣本連結

all_features=pd.concat((train_data.iloc[:,1:-1],test_data.iloc[:,1:]))
# all_features.shape  (2919, 79)


# 預處理資料
# 我們對連續數值的特徵做標準化（standardization）：
# 設該特徵在整個資料集上的均值為  μ ，標準差為  σ 。那麼，我們可以將該特徵的每個值先減去  μ 再除以  σ
# 得到標準化後的每個特徵值。對於缺失的特徵值，我們將其替換成該特徵的均值。

numeric_features=all_features.dtypes[all_features.dtypes!='object'].index
all_features[numeric_features]=all_features[numeric_features].apply(lambda x:(x-x.mean())/x.std())
all_features=all_features.fillna(all_features.mean())

# 接下來將離散數值轉成指示特徵。舉個例子，假設特徵 MSZoning 裡面有兩個不同的離散值 RL 和 RM，
# 那麼這一步轉換將去掉 MSZoning 特徵，並新加兩個特徵 MSZoning_RL 和 MSZoning_RM，其值為 0 或 1。
# 如果一個樣本原來在 MSZoning 裡的值為 RL，那麼有 MSZoning_RL=0 且 MSZoning_RM=1。

# dummy_na=True 將缺失值也當做合法的特徵值併為其建立指示特徵。
all_features=pd.get_dummies(all_features,dummy_na=True)

# all_features.shape  (2919, 331)
# 可以看到這一步轉換將特徵數從 79 增加到了 331。

# 最後，通過values屬性得到 NumPy 格式的資料，並轉成 NDArray 方便後面的訓練。
n_train=train_data.shape[0]
train_features=nd.array(all_features[:n_train].values)
test_features=nd.array(all_features[n_train:].values)
train_labels=nd.array(train_data.SalePrice.values).reshape((-1,1))

# 訓練模型
# 我們使用一個基本的線性迴歸模型和平方損失函式來訓練模型。
loss=gloss.L2Loss()
def get_net():
    net=nn.Sequential()
    
    net.add(nn.Dense(64,activation='relu'),nn.Dense(1))
    net.initialize()
    return net
def log_rmse(net,train_features,train_labels):
    clipped_preds=nd.clip(net(train_features),1,float('inf'))
    rmse=nd.sqrt(2*loss(clipped_preds.log(),train_labels.log()).mean())
    return rmse.asscalar()
# Adam 優化演算法。相對之前使用的小批量隨機梯度下降，它對學習率相對不那麼敏感。
def train(net, train_features, train_labels, test_features, test_labels,
          num_epochs, learning_rate, weight_decay, batch_size):
    train_ls, test_ls = [], []
    train_iter = gdata.DataLoader(gdata.ArrayDataset(
        train_features, train_labels), batch_size, shuffle=True)
    # 這裡使用了 Adam 優化演算法。
    trainer = gluon.Trainer(net.collect_params(), 'adam', {
        'learning_rate': learning_rate, 'wd': weight_decay})
    for epoch in range(num_epochs):
        for X, y in train_iter:
            with autograd.record():
                l = loss(net(X), y)
            l.backward()
            trainer.step(batch_size)
        train_ls.append(log_rmse(net, train_features, train_labels))
        if test_labels is not None:
            test_ls.append(log_rmse(net, test_features, test_labels))
    return train_ls, test_ls

# K  折交叉驗證。它將被用來選擇模型設計並調節超引數。以下實現了一個函式，它返回第i折交叉驗證時所需要的訓練和驗證資料。
def get_k_fold_data(k,i,X,y):
    assert k>1
    fold_size=X.shape[0]//k   #表取整
    print( fold_size)
    print('\n')
    X_train,y_train=None,None
    for j in range(k):
        idx=slice(j*fold_size,(j+1)*fold_size)#slice() 函式實現切片物件，主要用在切片操作函式裡的引數傳遞。返回一個切片物件。
        X_part,y_part=X[idx,:],y[idx]
        if j==i:
            X_valid,y_valid=X_part,y_part
        elif X_train is None:
            X_train,y_train=X_part,y_part
        else:
            X_train=nd.concat(X_train,X_part,dim=0)
            y_train=nd.concat(y_train,y_part,dim=0)
    return X_train,y_train,X_valid,y_valid


# 在  K 折交叉驗證中我們訓練  K 次並返回訓練和驗證的平均誤差。
def k_fold(k, X_train, y_train, num_epochs,
           learning_rate, weight_decay, batch_size):
# def k_fold(k,X_train,y_train,num_eopchs,learning_rate,weight_decay,batch_size):
    train_l_sum,valid_l_sum=0,0
    for i in range(k):
        data=get_k_fold_data(k,i,X_train,y_train)
        net=get_net()
        train_ls,valid_ls=train(net,*data,num_epochs,learning_rate,  #*data表示把資料都取出來
                               weight_decay,batch_size)
        train_l_sum+=train_ls[-1]
        valid_l_sum+=valid_ls[-1]
        if i==4:
             gb.semilogy(range(1, num_epochs + 1), train_ls, 'epochs', 'rmse',
                        range(1, num_epochs + 1), valid_ls,
                        ['train', 'valid'])
#         print('fold %d,train rmse: %f,valid rmse: %f'%(i,train_ls[-1],valid[-1]))
        print('fold %d, train rmse: %f, valid rmse: %f' % (
            i, train_ls[-1], valid_ls[-1]))
    return train_l_sum / k, valid_l_sum / k

k, num_epochs, lr, weight_decay, batch_size = 5, 100, 5, 0, 64
verbose_epoch = num_epochs - 2
train_l, valid_l = k_fold(k, train_features, train_labels, num_epochs, lr,
                         weight_decay, batch_size)
print('%d-fold validation: avg train rmse: %f, avg valid rmse: %f'
      % (k, train_l, valid_l))

# 在預測之前，我們會使用完整的訓練資料集來重新訓練模型，並將預測結果存成提交所需要的格式
def train_and_pred(train_features,test_features,train_labels,test_data,
                  num_epochs,lr,weight_decay,batch_size):
    net=get_net()
    train_ls,_=train(net,train_features,train_labels,None,None,
                    num_epochs,lr,weight_decay,batch_size)
    gb.semilogy(range(1,num_epochs+1),train_ls,'epochs','rmse')
    print('train rmse %f'%train_ls[-1])
    preds=net(test_features).asnumpy()
    test_data['SalePrice']=pd.Series(preds.reshape(-1,1)[0])
    submission=pd.concat([test_data['Id'],test_data['SalePrice']],axis=1)
    submission.to_csv('submission.csv',index=False)
train_and_pred(train_features, test_features, train_labels, test_data,
               num_epochs, lr, weight_decay, batch_size)

2-3動手學習深度學習-kaggle房價預測

%matplotlib inline import gluonbook as gb from mxnet import autograd,gluon,init,nd from mxnet.gluon import data as gdata,loss as gloss,nn

《動手學習深度學習》 2 預備知識

本章地址：http://zh.diveintodeeplearning.org/chapter_prerequisite/index.html 2.2 資料操作在MXNet中，NDArray是儲存和變換資料的主要工具，它提供了GPU計算和自動求梯度的更多功能。操作

自己動手實現深度學習框架-2 核心實現

目標完成框架設計文件中列出的基礎類和需要在基礎類中實現的介面。使用最簡的單多層感知機(Multi-Layer Perceptron)模型對框架進行初步驗證, 因此, 除了框架的核心部分外, 還要實現一個全連線層，一個啟用函式，一個優化器和一個損失函式。

自己動手實現深度學習框架-3 自動分批訓練, 緩解過擬合

程式碼倉庫: https://github.com/brandonlyg/cute-dl 目標為Session類增加自動分批訓練模型的功能, 使框架更好用。新增緩解過擬合的演算法: L2正則化, 隨機丟棄。實現自動分批訓練設計方案增加Dataset類負責管理資料集, 自動對資料分批。在Ses

《動手學深度學習（李沐）》筆記1

break pre square scatter mage sgd 筆記 init .com 實現一個簡單的線性回歸(mxnet) from mxnet import ndarray as nd from mxnet import autograd import matp

《Gluon 動手學深度學習》顯示影象資料集Fashion-MNIST

%matplotlib inline import sys sys.path.append('..') import gluonbook as gb from mxnet.gluon import data as gdata import time mnist_train=gdata.vision

《Gluon 動手學深度學習問題：ModuleNotFoundError: No module named 'gluonbook' 》

# 如果沒有安裝 pandas，請反註釋下面一行。 # !pip install pandas %matplotlib inline import gluonbook as gb from mxnet import autograd, gluon, init, nd from mxnet.gl

《Gluon 動手學深度學習六》Softmax實現

線性迴歸適用於輸出為連續值的情景，對於輸出離散值的分類問題，需要使用分類模型，例如softmax，與線性迴歸不同的是softmax輸出單元從一個變為多個。和線性迴歸相同的是，softmax也是一個單層神經網路。和線性迴歸不同的是，softmax輸出層的個數等於類別個數。 softmax 每個輸出

李沐等人開源中文書《動手學深度學習》預覽版上線

機器之心報道，參與：李澤南、張倩。獲得這本實體書最好的方法就是成為貢獻者。近日，由 Aston Zhang、李沐等人所著圖書《動手學深度學習》放出了線上預覽版，以供讀者自由閱讀。這是一本面向在校學生、工程師和研究人員的互動式深度學習書籍。線上書地址：zh.diveintodeeplear

分享《動手學深度學習》高清PDF+視訊教程-李沐著

下載：https://pan.baidu.com/s/10EKdEe-vjp9i97xP1FWuGA 更多資料學習：http://blog.51cto.com/14087171 由 MXNet 創始人李沐大神、Aston Zhang 等人所著的互動式書籍《動手學深度學習》推出了線上預覽版，面向在校

分享《動手學深度學習》高清PDF+視頻教程-李沐著

通過整理 ofo 入門到上線大神說明深度學習同學下載：https://pan.baidu.com/s/10EKdEe-vjp9i97xP1FWuGA 更多資料學習：http://blog.51cto.com/14087171 由 MXNet 創始人李沐大神、A

分享《動手學深度學習(李沐等著)》PDF+源代碼+《神經網絡與深度學習(吳岸城)著》PDF

.com aid 源代碼 inf nbsp 技術 http bubuko pdf 下載：https://pan.baidu.com/s/11O2m_uxSWJGbkXHF2Zh94w 更多資料：https://pan.baidu.com/s/1g4hv05UZ_w92uh9

《動手學深度學習》小記

blog 深度學習 ebo sdn 文件路徑由於 not notebook 利用一、隨著書上的步驟安裝環境，第一個需要解決的問題是如何配合該書利用jupyter：在下載好的gluon_tutorials_zh-1.0文件夾處啟動命令窗口（1.shift+右鍵+從此處打

Deep Learning 學習筆記3：《深度學習》線性代數部分

標量：一個標量就是一個單獨的數向量：一個向量是一列數，這些數是有序排列的，比如：,如果每個元素都屬於實數R，且有n個元素，則記為：。向量可以看做n維空間的點。矩陣：二維陣列，如果一個矩陣A高度為m，寬度為n，且每個元素都屬於實數，則記為：A∈ 張量：一組陣列中的元素

動手學深度學習小記

train_data=gluon.data.DataLoader(） #把資料整體封裝起來 class mxnet.gluon.data.DataLoader（dataset，batch_size = None，shuffle = False，sampler = None，

動手學習深度學習1-4 softmax

Softmax 迴歸的從零開始實現 %matplotlib inline import gluonbook as gb #要把這個包放在同一個根目錄下 from mxnet import autograd, nd #============獲取和讀取資料使用 Fash

動手學習深度學習1-5 softmax mxnet實現

%matplotlib inline import gluonbook as gb from mxnet import gluon, init from mxnet.gluon import loss as gloss, nn #讀入資料 batch_size = 256 t

下載資源~李沐《動手學深度學習》亞馬遜首席科學家、美國卡內基梅隆大學計算機博士重磅

教程的目錄以及學習路線：目錄如下： PDF+程式碼+視訊下載方式 &

【讀書1】【2017】MATLAB與深度學習——深度學習(2)

在深度神經網路的訓練過程中，反向傳播演算法經歷了以下三個主要困難： The backpropagation algorithm experiencesthe following three primary difficulties in the training

1.1.3 什麼使深度學習火起來了

深度學習這個技術其實幾十年前就已經存在了。但為什麼直到近幾年才火起來了? 在這篇文章中，讓我們來看看使深度學習火起來的一些因素。上圖橫軸代表訓練資料的數量，縱軸代表演算法效能（如廣告點選預測的準確性）。從圖中可以看出，當我們給出越多的訓練資料時，各種演算法的效能都會越

2-3動手學習深度學習-kaggle房價預測

相關推薦