1. 程式人生 > >20181116論文總結

20181116論文總結

折騰了4days,把foil it find mismathes論文看的差不多了吧,很自大的自己竟然只花一天的時間就給老師講這篇論文去,然後被老師批迴來重新讀,哈哈哈哈想想就搞笑

這篇論文的目的,就是利用自己擴大資料集(MS-COCO)形成的新資料集,用資料集來測試視覺-語言模型(給模型一張圖片,輸出對這篇圖片的描述) 期間利用3個task來檢測這些模型。

一、資料集準備

1.Generation of replacement word pairs

     其目的是為了 to replace one noun in the original caption (the target) with an incorrect but similar word (the foil).

     image包含91個常見的類(dog, elephant, bicycle...)11個supercategories(Animal, Vehicle...),論文中使用73個常見的類,去掉了多詞表達類(traffic light)

     在original caption中用一個不正確但相似的詞(the foil)替換一個名詞(the target)。名詞和foil來自於同一個supercategories (bicycle:motorcycles)、(bicycle:car)、(bird:dog)...

共得到472個(target:foil)pairs

2.Splitting of replacement pairs into training and testing

    其目的為了避免模型因替換頻率而學習無關緊要的相關性

   obtain 256 pairs, built out of 72 target and 70 foil words, for the training set

   216 pairs,  containing 73 target and 71 foil words, for the test set

3.Generation of foil captions(產生錯誤的字幕)

   Replace only those target words that occur in more than one MS-COCO caption associated with that image

   (僅替換與該影象相關的多個MS-COCO標題中出現的目標詞)

   Only replace a word with foils that are not among the labels (objects) annotated in MS-COCO for that image

   (只使用不在MS-COCO中標註的圖片標籤(物件)中的foils替換單詞)

4.Mining the hardest foil caption for each image(為每個圖片找出最難的錯誤的caption--其目的也就是找出和圖片幾乎描述差不多的) 

  在第3step中,每張圖片已經產生很多個 foil captions,為每個圖片找出最難的那個

  做法:是使用一個 the state-of-the -art model (N)來產生caption,model需要訓練,

 loss(caption,N(I))--->caption 是所有的foil caption,I是image,通過損失函式來計算 foil caption 和 N(I) ,損失函式值越小,說明foil caption越容易和 caption gerenated  by model混淆

會使用一個歸一化,p = 1-l(c,N(I)),p越大,越難。計算loss的,foil論文引用的《DeepVisual-SemanticAlignmentsforGeneratingImageDescriptions》論文裡面的公式特別像SVM形式,它裡面計算的是圖片中region和word對齊的score。用region的向量與word的向量進行點積計算。

二:進行3個task

Task 1 (T1): Correct vs. foil classification

The IC models, choose the multimodel bi-directional LSTM (Bi-LSTM) (predict a word in a senctence by considering both the past and future context ) Task 1 (T1): Correct vs. foil classification Given a test image I and a test caption(w1,...,wt−1, wt,wt+1,...,wn) input I 生成caption (V1,...Vt-1,Vt,Vt+1,...,Vn))對test caption中的每個單詞wt 用模型生成的Vt替換 t = (w1,...,wt−1, Vt, wt+1,...,wn) test caption和所有生成的caption比較 當生成的標題的所有條件概率低於分配給測試標題的條件概率時,後者被分類為good,否則作為foil。其條件概率可以用之前的計算概率的公式計算。

關於 wt 和 vt中的,使用引用的論文裡面的模型可以根據你輸入的圖片和test caption預測vt,它的模型根據圖片和(w1,w2......wt-1) 以及(wt+1,....)來預測vt,就是論文裡面的 we remove the word and use the model to generate new captionsin which the wt has been replaced by the word vt predicted by the model。

Task 2 (T2): Foil word detection

計算每個生成的caption的條件概率。條件概率最高的則 為 foil word

Task 3 (T3): Foil word correction

將線性迴歸方法應用於所有的目標詞,並選擇目標詞,該目標詞有最高的概率使錯誤的標題對給定的影象是正確的

。。。。