[深度應用]·Keras極簡實現Attention結構

阿新 • • 發佈：2019-05-26

[深度應用]·Keras極簡實現Attention結構

在上篇部落格中筆者講解來Attention結構的基本概念，在這篇部落格使用Keras搭建一個基於Attention結構網路加深理解。。

1.生成資料

這裡讓x[:, attention_column] = y[:, 0]，X資料的第一列等於Y資料第零列（其實就是label），這樣第一列資料和label的相關度就會很大，最後通過輸出相關度來證明思路正確性。

import keras.backend as K
import numpy as np


def get_activations(model, inputs, print_shape_only=False, layer_name=None):
    # Documentation is available online on Github at the address below.
    # From: https://github.com/philipperemy/keras-visualize-activations
    print('----- activations -----')
    activations = []
    inp = model.input
    if layer_name is None:
        outputs = [layer.output for layer in model.layers]
    else:
        outputs = [layer.output for layer in model.layers if layer.name == layer_name]  # all layer outputs
    funcs = [K.function([inp] + [K.learning_phase()], [out]) for out in outputs]  # evaluation functions
    layer_outputs = [func([inputs, 1.])[0] for func in funcs]
    for layer_activations in layer_outputs:
        activations.append(layer_activations)
        if print_shape_only:
            print(layer_activations.shape)
        else:
            print(layer_activations)
    return activations


def get_data(n, input_dim, attention_column=1):
    """
    Data generation. x is purely random except that it's first value equals the target y.
    In practice, the network should learn that the target = x[attention_column].
    Therefore, most of its attention should be focused on the value addressed by attention_column.
    :param n: the number of samples to retrieve.
    :param input_dim: the number of dimensions of each element in the series.
    :param attention_column: the column linked to the target. Everything else is purely random.
    :return: x: model inputs, y: model targets
    """
    x = np.random.standard_normal(size=(n, input_dim))
    y = np.random.randint(low=0, high=2, size=(n, 1))
    x[:, attention_column] = y[:, 0]
    return x, y

2.定義網路

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

from attention_utils import get_activations, get_data

np.random.seed(1337)  # for reproducibility

from keras.models import *
from keras.layers import Input, Dense,Multiply,Activation

input_dim = 4

def Att(att_dim,inputs,name):
    V = inputs
    QK = Dense(att_dim,bias=None)(inputs)
    QK = Activation("softmax",name=name)(QK)
    MV = Multiply()([V, QK])
    return(MV)


def build_model():
    inputs = Input(shape=(input_dim,))

    atts1 = Att(input_dim,inputs,"attention_vec")

    x = Dense(16)(atts1)
    atts2 = Att(16,x,"attention_vec1")


    output = Dense(1, activation='sigmoid')(atts2)
    model = Model(input=inputs, output=output)
    return model

3.訓練與作圖

if __name__ == '__main__':
    N = 10000
    inputs_1, outputs = get_data(N, input_dim)

    print(inputs_1[:2],outputs[:2])

    m = build_model()
    m.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    print(m.summary())

    m.fit(inputs_1, outputs, epochs=20, batch_size=128, validation_split=0.2)

    testing_inputs_1, testing_outputs = get_data(1, input_dim)

    # Attention vector corresponds to the second matrix.
    # The first one is the Inputs output.
    attention_vector = get_activations(m, testing_inputs_1,
                                       print_shape_only=True,
                                       layer_name='attention_vec')[0].flatten()
    print('attention =', attention_vector)

    # plot part.
    

    pd.DataFrame(attention_vector, columns=['attention (%)']).plot(kind='bar',
                                                                   title='Attention Mechanism as '
                                                                         'a function of input'
                                                                         ' dimensions.')
    plt.show()

4.結果展示

實驗結果表明，第一列相關性最大，符合最初的思想。

__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
==================================================================================================
input_1 (InputLayer)            (None, 4)            0                                            
__________________________________________________________________________________________________
dense_1 (Dense)                 (None, 4)            16          input_1[0][0]                    
__________________________________________________________________________________________________
attention_vec (Activation)      (None, 4)            0           dense_1[0][0]                    
__________________________________________________________________________________________________
multiply_1 (Multiply)           (None, 4)            0           input_1[0][0]                    
                                                                 attention_vec[0][0]              
__________________________________________________________________________________________________
dense_2 (Dense)                 (None, 16)           80          multiply_1[0][0]                 
__________________________________________________________________________________________________
dense_3 (Dense)                 (None, 16)           256         dense_2[0][0]                    
__________________________________________________________________________________________________
attention_vec1 (Activation)     (None, 16)           0           dense_3[0][0]                    
__________________________________________________________________________________________________
multiply_2 (Multiply)           (None, 16)           0           dense_2[0][0]                    
                                                                 attention_vec1[0][0]             
__________________________________________________________________________________________________
dense_4 (Dense)                 (None, 1)            17          multiply_2[0][0]                 
==================================================================================================
Total params: 369
Trainable params: 369
Non-trainable params: 0
__________________________________________________________________________________________________
None
Train on 8000 samples, validate on 2000 samples
Epoch 1/20
2019-05-26 20:02:22.289119: I tensorflow/core/platform/cpu_feature_guard.cc:141] Your CPU supports instructions that this TensorFlow binary was not compiled to use: SSE4.1 SSE4.2 AVX AVX2 FMA
2019-05-26 20:02:22.290211: I tensorflow/core/common_runtime/process_util.cc:69] Creating new thread pool with default inter op setting: 4. Tune using inter_op_parallelism_threads for best performance.
8000/8000 [==============================] - 2s 188us/step - loss: 0.6918 - acc: 0.5938 - val_loss: 0.6893 - val_acc: 0.7715
Epoch 2/20
8000/8000 [==============================] - 0s 23us/step - loss: 0.6848 - acc: 0.7889 - val_loss: 0.6774 - val_acc: 0.8065
Epoch 3/20
8000/8000 [==============================] - 0s 28us/step - loss: 0.6619 - acc: 0.8091 - val_loss: 0.6417 - val_acc: 0.7780
Epoch 4/20
8000/8000 [==============================] - 0s 29us/step - loss: 0.6132 - acc: 0.8166 - val_loss: 0.5771 - val_acc: 0.8610
Epoch 5/20
8000/8000 [==============================] - 0s 28us/step - loss: 0.5304 - acc: 0.8925 - val_loss: 0.4758 - val_acc: 0.9185
Epoch 6/20
8000/8000 [==============================] - 0s 28us/step - loss: 0.4177 - acc: 0.9433 - val_loss: 0.3554 - val_acc: 0.9680
Epoch 7/20
8000/8000 [==============================] - 0s 24us/step - loss: 0.3028 - acc: 0.9824 - val_loss: 0.2533 - val_acc: 0.9930
Epoch 8/20
8000/8000 [==============================] - 0s 40us/step - loss: 0.2180 - acc: 0.9961 - val_loss: 0.1872 - val_acc: 0.9985
Epoch 9/20
8000/8000 [==============================] - 0s 37us/step - loss: 0.1634 - acc: 0.9986 - val_loss: 0.1442 - val_acc: 0.9985
Epoch 10/20
8000/8000 [==============================] - 0s 33us/step - loss: 0.1269 - acc: 0.9998 - val_loss: 0.1140 - val_acc: 0.9985
Epoch 11/20
8000/8000 [==============================] - 0s 22us/step - loss: 0.1013 - acc: 0.9998 - val_loss: 0.0921 - val_acc: 0.9990
Epoch 12/20
8000/8000 [==============================] - 0s 28us/step - loss: 0.0825 - acc: 0.9999 - val_loss: 0.0758 - val_acc: 0.9995
Epoch 13/20
8000/8000 [==============================] - 0s 22us/step - loss: 0.0682 - acc: 1.0000 - val_loss: 0.0636 - val_acc: 0.9995
Epoch 14/20
8000/8000 [==============================] - 0s 20us/step - loss: 0.0572 - acc: 0.9999 - val_loss: 0.0538 - val_acc: 0.9995
Epoch 15/20
8000/8000 [==============================] - 0s 23us/step - loss: 0.0485 - acc: 1.0000 - val_loss: 0.0460 - val_acc: 0.9995
Epoch 16/20
8000/8000 [==============================] - 0s 22us/step - loss: 0.0416 - acc: 1.0000 - val_loss: 0.0397 - val_acc: 0.9995
Epoch 17/20
8000/8000 [==============================] - 0s 23us/step - loss: 0.0360 - acc: 1.0000 - val_loss: 0.0345 - val_acc: 0.9995
Epoch 18/20
8000/8000 [==============================] - 0s 22us/step - loss: 0.0314 - acc: 1.0000 - val_loss: 0.0302 - val_acc: 0.9995
Epoch 19/20
8000/8000 [==============================] - 0s 22us/step - loss: 0.0276 - acc: 1.0000 - val_loss: 0.0266 - val_acc: 0.9995
Epoch 20/20
8000/8000 [==============================] - 0s 21us/step - loss: 0.0244 - acc: 1.0000 - val_loss: 0.0235 - val_acc: 1.0000
----- activations -----
(1, 4)
attention = [0.05938202 0.7233456  0.1254946  0.09177781]

[深度應用]·Keras極簡實現Attention結構

[深度應用]·Keras極簡實現Attention結構在上篇部落格中筆者講解來Attention結構的基本概念，在這篇部落格使用Keras搭建一個基於Attention結構網路加深理解。。 1.生成資料這裡讓x[:, attention_column] = y[:,

[深度應用]·Keras實現Self-Attention文字分類（機器如何讀懂人心）

[深度應用]·Keras實現Self-Attention文字分類（機器如何讀懂人心）配合閱讀： [深度概念]·Attention機制概念學習筆記 [TensorFlow深度學習深入]實戰三·分別使用DNN,CNN與RNN(LSTM)做文字情感分析筆

[開發技巧]·Python極簡實現滑動平均濾波（基於Numpy.convolve）

[開發技巧]·Python極簡實現滑動平均濾波（基於Numpy.convolve） 1.滑動平均概念滑動平均濾波法（又稱遞推平均濾波法），時把連續取N個取樣值看成一個佇列，佇列的長度固定為N ，每次取樣到一個新資料放入隊尾,並扔掉原來隊首的一次資料.(先進先出原則)

原生JS輪播-各種效果的極簡實現

star element length for sha 部分 wid 方式高度寒假持續摸魚中~此為老早以前博客的重寫，當時還是分開寫的，這裏匯總重寫，正好復習一遍~ 春招我來了！所有有意思的，一股腦先扔進收藏，然後再也不看哈哈，真是糟糕。今日事，今日畢，說起來容易

教程 | Tensorflow keras 極簡神經網路構建與使用

Tensorflow keras極簡神經網路構建教程 Keras介紹Keras (κέρας) 在希臘語中意為號角，它來自古希臘和拉丁文學中的一個文學形象。釋出於2015年，是一套高階API框架，其預設的backend是tensorflow，但是可以支援CNTK、Theano、MXNet作為backend執

從程式設計實現角度學習Faster R-CNN（附極簡實現）

https://www.jianshu.com/p/9da1f0756813 從程式設計實現角度學習Faster R-CNN（附極簡實現） GoDeep 關注 2018.03.11 15:51* 字數 5820 閱讀 1897評論 2

夥伴分配器的一個極簡實現

在原文的基礎上做了部分修改 buddy system是一種經典的記憶體分配演算法，Linux底層的記憶體管理用的就是它。這裡不探討核心這麼複雜實現，而僅僅是將該演算法抽象提取出來，同時給出一份及其簡潔的原始碼實現，以便定製擴充套件。夥伴分配的實質就是一種特殊的“分離適

華為雲EI ModelArts，從0到1開發訓練AI模型，通過“極快”和“極簡”實現普惠AI

預測產生極致各類 bat 華為雲調整 parameter 引擎華為雲EI ModelArts，從0到1開發訓練AI模型，通過“極快”和“極簡”實現普惠AI現如今 AI 技術、概念火爆、落地應用更是繁多，但開發呢？是否困難？到底有多痛？據了解，大部分 AI 開發者的

邏輯式程式語言極簡實現（使用C#） - 1. 邏輯式程式語言介紹

相信很多朋友對於邏輯式程式語言，都有一種最熟悉的陌生人的感覺。一方面，平時在書籍、在資訊網站，偶爾能看到一些吹噓邏輯式程式設計的話語。但另一方面，也沒見過周圍有人真正用到它（除了SQL）。遙記當時看《The Reasoned Schemer》（一本講邏輯式程式語言的小人書），被最後兩頁的直譯器實現驚豔到了

邏輯式程式語言極簡實現（使用C#） - 2. 一道邏輯題：誰是凶手

本系列前面的文章： * [邏輯式程式語言極簡實現（使用C#） - 1. 邏輯式程式語言介紹](https://www.cnblogs.com/skabyy/p/13199800.html) 這是一道Prolog經典的練習題，中文翻譯版來自阮一峰的文章[《Prolog 語言入門教程》](https://ww

邏輯式程式語言極簡實現（使用C#） - 4. 程式碼實現（完結）

本文是本系列的完結篇。本系列前面的文章： * [邏輯式程式語言極簡實現（使用C#） - 1. 邏輯式程式語言介紹](https://www.cnblogs.com/skabyy/p/13199800.html) * [邏輯式程式語言極簡實現（使用C#） - 2. 一道邏輯題：誰是凶手](https://ww

『深度應用』一小時教你上手MaskRCNN·Keras開源實戰（Windows&Linux）

0. 前言介紹開源地址：https://github.com/matterport/Mask_RCNN 個人主頁：http://www.yansongsong.cn/ MaskRCNN是何凱明基於以往的faster rcnn架構提出的新的卷積網路，一舉完成了object instance se

基於七牛雲物件儲存,搭建一個自己專屬的極簡Web圖床應用(手摸手的註釋講解核心部分的實現原理)

一個極簡的Web圖床應用,支援複製貼上與拖拽上傳圖片 1.開發緣由日常使用Vs Code編寫markdown筆記與部落格文章時,在文章中插入圖片時發現非常不便使用本地檔案編寫相對路徑---沒法直接複製貼上到其它地方使用第三方的圖床---需要登入賬號(還是放到自己"口袋"裡放心) vs code內建外掛

STM32應用實例十四：利用光敏二極管實現光度測量

src 變化數據 adc 得出設計軟件 es2017 開發是我最近我們在開發臭氧發生器時，需要監測生成的臭氧的濃度，於是想到使用光度計來測量。因為不同濃度的臭氧對管的吸收作用是不相同的，於是檢測光照強度的變化就可以得到相應的濃度數據。 1、硬件設計此次光照度檢測我

使用Python3 實現極簡區塊鏈-熊麗兵-專題視訊課程

使用Python3 實現極簡區塊鏈—10人已學習課程介紹如果你懂區塊鏈原理，知道一個區塊是打包了一個交易，以及如何形成共識等等，但是不知道如何使用程式碼實現區塊鏈。那這門課程你一

深度學習（四）Keras利用CNN實現圖片識別（Mnist、Cifar10）

視覺集視覺資料庫是用來提供給圖片識別領域用素材，目前各個教材常用的主要有手寫數字識別庫、10中小圖片分類庫，詳細介紹如下： Mnist &

springboot極簡使用mybatis實現一對一，一對多查詢

繁重的mybatis配置經常讓人頭痛，今天總結一下簡單地使用mybatis 先建好表 CREATE TABLE IF NOT EXISTS `user` ( `id` int(11) NOT NULL AUTO_INCREMENT, `nick_name` varchar(50)

極簡深度學習平臺構建指南

背景準備工作構建過程總結背景我們在train一個深度學習模型的時候常常需要特別強大的計算力(即便這個模型結構比較簡單).

java多執行緒的三種實現方式的極簡範例

java提供了三種多執行緒的實現方式，分別為:繼承Thread類、實現Runnable介面和實現Callable<>介面。繼承Thread類執行緒的執行體是run()方法，所以我們只需要過載父類的run()方法。建立類物件，呼叫start()

深度學習基礎系列（五）| 深入理解交叉熵函式及其在tensorflow和keras中的實現

　　在統計學中，損失函式是一種衡量損失和錯誤（這種損失與“錯誤地”估計有關，如費用或者裝置的損失）程度的函式。假設某樣本的實際輸出為a，而預計的輸出為y，則y與a之間存在偏差，深度學習的目的即是通過不斷地訓練迭代，使得a越來越接近y，即 a - y →0，而訓練的本質就是尋找損失函式最小值的過程。　　常見的

[深度應用]·Keras極簡實現Attention結構

[深度應用]·Keras極簡實現Attention結構

1.生成資料

2.定義網路

3.訓練與作圖

4.結果展示

相關推薦