image caption筆記（四）：Image Captioning with Semantic Attention

阿新 • • 發佈：2018-12-03

文章來自cvpr2016

image caption常見的方法包括top-down和bottom-up。Top-down直接做影象到文字的端到端學習，而bottom-up先抽取出一些關鍵詞，再把關鍵詞組合成一句話。Top-down比較難處理一些影象的細節，因為它將整張圖片作為輸入。而bottom-up不容易做端到端的學習，將抽取的特徵組成一句話也很困難。因此文章在端到端模型中引入了attention機制，結合了兩種方法的優勢。

與《show,attend and tell》相比，同樣是引入了注意力機制，不同點在於：

在《show,attend and tell》中，注意力是以固定的解析度在空間上建模的。在每次重複迭代時，該演算法計算一組與預定義的空間位置相對應的注意權值。相反，本文可以在影象中任何解析度的任何地方使用概念。事實上，本文甚至可以使用在影象中沒有直接視覺存在的概念。

在RNN的輸入、輸出均引入了注意力機制。

關於屬性的選取，共有兩種方法。第一種沒看懂，第二種就是在caption中挑取頻率高的單詞作為屬性。

也是隻在起始時刻輸入影象特徵。後續不再使用。

關鍵在於輸入和輸出時刻的兩個注意力模型。

先說輸入時刻的注意力模型

首先是根據前一個單詞與不同屬性的相關性分配權重（都是從詞彙庫中得出的所以都用y表示）用E降一下維度

本文使用雙線性函式表述模型相關性：

然後組合屬性和前一時刻的輸出得到當前時刻的輸入

輸出的注意力機制與此類似，先計算權重

然後根據當前時刻的隱藏態和組合屬性計算輸出的softmax概率值

最後是損失函式，包括三部分，後兩部分是對權重的限制。第一部分就是希望預測的vocab大小的softmax概率向量中，gt位置的概率儘可能的接近1.

image caption筆記（四）：Image Captioning with Semantic Attention

文章來自cvpr2016 image caption常見的方法包括top-down和bottom-up。Top-down直接做影象到文字的端到端學習，而bottom-up先抽取出一些關鍵詞，

image caption筆記（三）：《Show, Attend and Tell_Neural Image Caption》

一、基本思想文章在NIC的基礎上加入了attention機制二、模型結構對LSTM部分做出的改動，其餘與NIC相同。 &nbs

Unity3D之Mecanim動畫系統學習筆記（四）：Animation State

大致面板輸入 jpg any 動畫播放速度 nsf 顯示動畫的設置我們先看看Animation Clip的一些設置： Loop time：動畫是否循環播放。下面出現了3個大致一樣的選項： Root Transform Rotation：表示為播放動畫

.net core 2.0學習筆記（四）：遷移.net framework 工程到.net core

編譯 its evel hashtable ref 學習筆記 inline null 創建在遷移.net core的過程中，第一步就是要把.net framework 工程的目標框架改為.net core2.0，但是官網卻沒有提供轉換工具，需要我們自己動手完成了

java學習筆記（四）：import語法

employee sign cnblogs java 調用變量賦值 temp 職位求職 Import 語法是給編譯器尋找特定類的適當位置的一種方法。創建一個Employee 類，包括四個實體變量姓名（name），年齡（age），職位（designation）和薪水（s

HADOOP學習筆記（四）：HBase

系統唯一性創建時間必須就是入口計算 hfile mapreduce HBase簡介 Hbase是分布式、面向列的開源數據庫（其實準確的說是面向列族）。HDFS為Hbase提供可靠的底層數據存儲服務，MapReduce為Hbase提供高性能的計算能力，Zooke

javaweb學習筆記（四）：會話管理（1）

目錄會話管理 1.概念 2.cookie技術 2.1 Cookie一般處理流程 2.2 Cookie類會話管理 1.概念一次會話：開啟瀏覽器 -> 訪問一些伺服器內容 -> 關閉瀏覽器。（瀏覽器A給伺服器傳送請求，訪問web程式，該次會話就

學習筆記（四）：使用K近鄰演算法檢測WebShell

1.資料蒐集載入ADFA-LD中正常樣本資料： def load_adfa_training_files(rootdir): x=[] y=[] list = os.listdir(rootdir) for i in

Scala學習筆記（四）：apply方法說明

調用我們 val sca 關鍵字語法糖方式 rgs 類型當scala中類或者對象有一個主要用途的時候，apply方法就是一個很好地語法糖。請看下面一個簡單的例子： class Foo(foo: String) {} object Foo { def appl

Python3學習筆記（四）：用Python實現深度優先

這裡主要是用Python實現下深度優先的概念，由於程式碼寫得比較隨意，就沒有封裝成類，而是寫成一個函式用一個列表做為實驗資料，模擬成二叉樹結構，用遞迴的方式不斷獲取二叉樹上的左節點，一直到左節點序號超出列表範圍，然後迴歸獲取右節點，以此來實現深度優先。以下是程式碼

數字影象處理筆記（四）：灰度變換

1 - 引言影象處理分為空間域和變換域（在影象的傅立葉變換上進行處理），空間域是指影象平面本身，主要是直接以影象中的畫素操作為基礎進行影象處理，空間域的處理主要分為灰度變換和空間濾波兩類，本文主要介紹灰度變換和空間濾波在影象增強方面的應用，使得輸出的影象比原始影象更適合特定需求的一種處

安卓開發學習筆記（四）：Android Stuidio無法實現隱式Intent是為什麼？

1 package com.example.lenovo.activitytest; 2 3 import android.support.v7.app.AppCompatActivity; 4 import android.os.Bundle; 5 import android.view

圖解演算法學習筆記（四）：快速排序

本章內容：學習分而治之，快速排序 1）示例1：假設你是農場主，有一小塊土地，你要將這塊地均勻分成方塊，且分出的方塊儘可能大。如何分？你要將這塊地均勻分成方塊，且分出的方塊要儘可能大。顯然，下面的分法不符合要求。此時，你應該使用D&C策略（div

機器學習實戰讀書筆記（四）：樸素貝葉斯演算法

樸素貝葉斯優點: 在資料較少的情況下仍然有效可以處理多類別問題缺點：對輸入的資料的準備方式較為敏感適用資料型別：標稱型資料 p1(x,y)>p2(x,y) 那麼類別是1 p2(x,y)>p1(x,y) 那麼類別是2 貝葉斯決策的核心是選擇具有最高概率的決策

python學習筆記（四）：核心模組方法

核心模組1、__builtin__模組：一、數學運算類abs(x) 求絕對值 1、引數可以是整型，也可以是複數 2、若引數是複數，則返回複數的模 complex([real[, imag]]) 建立一個複數 divmod(a, b) 分別取商和餘數注意：整型

javascript資料結構與演算法筆記（四）：迴圈佇列

javascript資料結構與演算法筆記（四）：迴圈佇列一：簡介二：ES6版Queue類一：簡介迴圈佇列是指佇列頭元素的移除會追加到佇列的尾部。我們此次拿一個例子來實現迴圈佇列，例子名就是模擬民間遊戲擊鼓傳花即

各種音視訊編解碼學習詳解之編解碼學習筆記（四）：Mpeg系列——Mpeg 4

最近在研究音視訊編解碼這一塊兒，看到@bitbit大神寫的【各種音視訊編解碼學習詳解】這篇文章，非常感謝，佩服的五體投地。奈何大神這邊文章太長，在這裡我把它分解成很多小的篇幅，方便閱讀。大神部落格傳送門：https://www.cnblogs.com/skyofbitbit

演算法快學筆記（四）：快速排序的原理與實現

1. 原理介紹快速排序是一種排序演算法，速度比選擇排序快得多，其主要基於“分而治之”的思想對集合進行排序，本文將對該演算法進行分析。 2. 分而治之(D&C)的思想 D&C主要指利用遞迴的方式來不斷的縮小需要處理問題的規模，最終使問題容易解決。使用D&C

Python3+OpenCV學習筆記（四）：影象濾波基礎（均值、高斯、中值、雙邊）

OpenCV中還可以在影象上進行繪圖操作，由於資料都比較完善，所以附上鍊接，自行參悟。好了，進入正題。在一張影象，在資料儲存或傳輸的過程中，或多或少都會引入噪聲，常見的影象噪聲如高斯噪聲、瑞利噪聲、椒鹽噪聲等，可參加連結：數字影象噪聲為了避免噪聲對影象資訊進行干擾或

SpringBoot學習筆記（四）：SpringBoot整合Mybatis-Plus+程式碼生成

簡介官網：http://baomidou.oschina.io/mybatis-plus-doc/ 平時業務程式碼不復雜的時候我們寫什麼程式碼寫的最多，就是我們的SQL語句啊，配置那麼多的Mapper.xml，還要配置什麼resultMap這些東西，還要去管理paramtype