論文閱讀1《AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networ》
阿新 • • 發佈:2018-11-07
paper連結https://arxiv.org/abs/1711.10485,
code連結https://github.com/taoxugit/AttnGAN,
作者的homepage https://sites.google.com/view/taoxu
本文給出的是CVPR 2018的文章《AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks》。它是StackGAN++的後續工作。
一、相關工作
對GAN的相關理解:https://blog.csdn.net/zlrai5895/article/details/80648898
前作StackGAN的工作:http://blog.csdn.net/zlrai5895/article/details/81292167
二、基本思想
1、文章要做的事情(Text to Image Synthesis):
輸入:text 輸出:image
2、通過引入attentional generative network,AttnGAN可以通過關注自然語言描述中的相關單詞來合成影象不同子區域的細粒度細節。此外,提出了一種deep attentional multimodal similarity model來計算細粒度影象-文字匹配損失,用於生成器的訓練。
它首次表明 the layered attentional GAN 能夠自動選擇單詞級別的condition來生成影象的不同部分。
三、 資料集
本次實驗使用的資料集是加利福尼亞理工學院鳥類資料庫-2011(CUB_200_2011)。