基於視覺-語義中間綜合屬性特徵的影象中文描述生成演算法論文筆記
1.摘要
該文提出了基於多層次選擇性視覺語義屬性特徵的影象中文描述生成演算法。該演算法結合目標檢測和注意力機制,充分考慮了影象高層視覺語義所對應的中文屬性資訊,抽取不同尺度和層次的屬性上下文表示。
2.當前研究任務的不足及解決方法
首先,現有研究大多針對影象的英文描述。相比英文,中文在語法結構、詞義表述等方面更為豐富。因此,在實現影象中文描述的演算法學習過程中,模型不僅需要對中文語料進行必要的分詞、詞嵌入表示等預處理,還需要考慮詞語的多義性。
其次,現有影象語句描述的演算法並沒有並重考慮視覺和語言兩方面的資訊。多數演算法對發展較為成熟的語言模型更為倚重,對影象的視覺資訊,尤其是影象內容的分佈資訊,處理方式簡單粗暴,資訊利用不充分。
本文充分考慮影象高層視覺語義對應的中文屬性資訊,結合目標檢測演算法,提出多層次多尺度的中間屬性特徵抽取模組,獲取影象的視覺語義要素,克服存在的異構語義鴻溝問題;使用選擇性注意力機制,將語義屬性要素進行加權綜合,將不同尺度和層次的屬性上下文資訊應用到影象的描述生成過程中。
本文的創新點主要體現在兩方面:①本文根據中文語言特點,利用中文分詞篩選出具有明確意義的中層屬性語義詞,並以此作為影象內容的中間語義特徵,增強視覺和語言之間的資訊關聯度;②本文利用多層次中間語義屬性特徵,提出基於顯著目標候選區域選擇性注意機制的影象中文描述生成演算法。
3.1模型框架
模型採用影象的中間語義特徵提取和描述語句的生成兩階段過程。其中,特徵提取階段又包含了兩部分的網路:影象全域性視覺特徵檢測器和影象高層中間語義屬性特徵檢測器。
3.2影象全域性視覺特徵抽取網路
影象全域性視覺特徵抽取網路使用預訓練好的卷積神經網路作為影象低層視覺特徵提取器。在本文去除預訓練的 ResNet50的最後全連線層後,網路輸出的2048維向量被用作影象全域性視覺特徵。該特徵雖然帶有一定高度的內容抽象,但依然缺乏顯式的語義對應關係,是對影象低層視覺特徵的概括。
3.3影象高層中間語義屬性特徵抽取網路
影象高層中間語義屬性特徵抽取網路包含兩個處理階段。首先,構建視覺內容的關鍵屬性詞表,用於表徵中間語義資訊。其次,為了有效地實現屬性詞表中所表示的中間語義屬性與視覺特徵的關聯,訓練屬性分類器,用於預測中間語義的概率。
4.實驗細節
演算法模型採用 PyTorch1.0版本實現。描述語句生成網路採用單層 LSTM結構,其中,迴圈單元的隱層狀態數設定為 512。演算法使用開源工具jieba-0.38進行中文分詞。詞嵌入特徵向量的維度設定為512。網路模型訓練的優化器設定為 Adam演算法,訓練批量大小(batchsize)設定為8,訓練學習率初始化為0.001。為了保持模型結構的一致,Flick8k-CN資料集和 AIChallenger2017資料集對應的屬性詞表大小均設定為2048。具體地,在 AIChallenger2017資料集中,提取的屬性詞詞頻在 50以上。由於Flick8k-CN資料集[10]相對比較小,所提取的屬性詞詞頻設定為在2以上。由於我們提取的這些屬性詞的詞性和意義均比較豐富,因此詞頻不影響屬性詞彙表的語義表達有效性。
5.實驗不足
列舉出了一些本文模型表述錯誤的例子。在這些樣例中,基準模型的結果也同樣是完全錯誤。與大部分的資料驅動方法一樣,當影象出現的視覺要素(物品、行為等)在訓練集中較少出現時,模型極易發生表述錯誤。