1. 程式人生 > 其它 >Context-Fused Guidance for Image Captioning Using Sequence-Level Training論文筆記

Context-Fused Guidance for Image Captioning Using Sequence-Level Training論文筆記

1、摘要

   編碼器與解碼器的分離導致了圖片和句子間關係的斷連,最終生成的字幕只包含主要的例項但是意外地忽視了其他的物體和場景。為了解決這個問題,本文提出了一個上下文融合指導的圖片字幕生成系統,它將區域性和全域性的圖片表示作為合成的視覺特徵去學習圖片中的物體及其屬性;為了整合圖片級別的語義資訊,採用了visual concept;通過有選擇性地融合visual concept和詞嵌入的資訊,上下文融合門控機制被引入來計算文字上下文。上下文融合指導模型就是基於合成的視覺特徵和文字上下文。除此之外,為了解決暴露偏差,本文還使用sequence decision-making訓練模型。

2、編碼器-解碼器框架需要關心的問題

    從計算機視覺角度來看,視覺證據對解碼器並不總是必不可少的,因為描述的句子通常包含對應於視覺特徵的顯著物體。解碼器與編碼器的分離通常導致了特徵向量和生成字幕之間的斷連。考慮到圖片區域中的例項在詞彙表中沒有對應的詞彙,所以提出了visual concept,visual concept是一組描述顯著影象物件的常用詞彙,它從區域級別加強了圖片和文字之間的聯絡。

    用MLE訓練模型可能會導致暴露偏差的問題,為了解決這個問題,引入了RL策略。但是由於梯度估計的高方差,並不能直接使用RL策略訓練模型。Self-critical sequence training框架通過序列級別的訓練來使用RL策略,在推理階段,SCST使用已生成的樣本作為基準來正則化獎勵,然後網路使用不可微的序列級別標準(eg,CIDEr)來評估語言質量而不是使用詞級別的交叉熵損失。

3、模型

    CFG模型利用合成的視覺特徵來進行多級別的影象學習,通過上下文融合門控機制,CFG自適應地結合visual concept和詞嵌入。

 

 

 

 

4、實驗結果

 

 

 

     實驗結果表明,模型通過利用合成的視覺特徵和上下文融合的圖片指導能夠改善字幕表現,但是在SPICE上的得分並不高,這是本文模型需要改進的地方。

    實驗結果還表明本文模型不能充分準確地推斷出物體之間的關係,特別是圖片中有多個物體的時候,一個可能的解決方案是引入場景圖,它含有豐富複雜的圖片和句子的結構表示。