1. 程式人生 > >Hierarchical deep semantic hashing for fast image retrieval

Hierarchical deep semantic hashing for fast image retrieval

       本文主要是採用基於分層的思想進行模型構建,結合了概率語義層面相似(Probability-based semantic-level similarity)和雜湊層面相似(Hashing-level similarity)。

摘要

       為解決大規模影象檢索中效率和精度的問題,本文提出了一種分層的深度語義學習模型。本文的核心思想是基於語義分層,在大規模影象檢索中利用層次資訊是最重要的事情之一。表示潛在語義標籤概念的binary code可以通過深度神經網路獲得。首先,與之前的通過影象特徵對映到hash code的其他監督學習方法不同的是,我們的方法學習了分層深度語義雜湊編碼(Hierarchical Deep Semantic Hashing code ,HDSH-code

),並且影象表示採用了一種隱含方式。此外,採用了一種新型的hash機制(雜湊編碼與語義資訊同時生成),從而減少了檢索的複雜度。最後,在Holidays, Oxford5k/105k, Caltech256三個標準資料集上進行了實驗,HDSH 模型表現出來有競爭力的效能,在Holidays上檢索時間為0.15ms,在Imagenet上檢索時間為53.92ms。

本文的主要思想和貢獻

       為解決CNN不能直接產生緊湊的binary code這個問題,本文采用CNN模型同時學習語義資訊和binary表示,從而提出了分層深度語義雜湊模型(Hierarchical Deep Semantic Hashing,HDSH

)。在基於分層架構的影象語義資訊基礎上如何融合人類先驗知識。例如,對於某一張包含語義標籤““Monkey”的圖片,通過預先設計好的分層模型可以讓我們知道,相比包含a “house” or a“person”的圖片,含有Lemur”的圖片是更相似的。基於此,我們可以丟棄那些屬於無關語義類別的影象。

        一旦語義層面相似確定好了,下面的問題就是如何進行有效的檢索,本文介紹了一種新的雜湊學習策略。在沒有任何的雜湊索引情況下,保證有競爭力的檢索準確度的前提下,在Imagenet資料集上的每次檢索可以達到50ms以內。事實上使用索引可以更加有效的提高檢索效率,此問題不在本文的研究範圍內。

      本文的主要貢獻包括如下:

1、提出了一種簡單並且有效的監督學習框架來進行快速的影象檢索;

2、通過對於傳統的網路模型進行細微更改,我們的網路可以同時學習到概率語義層面相似(Probability-based semantic-level similarity)和雜湊層面相似(Hashing-level similarity)進行影象表示。

3、利用語義層次進行類似的影象檢索可以減少檢索空間。

4、採用一種簡單而且新穎的方法來解決樣本少而且不平衡的問題。

5、學習到的分層binary code是非常穩定的,相比之前state-of-the-art methods,當減少特徵維度時效能衰減並不是很明顯。

Exploiting hierarchy for retrieval

1.Similarity strategy

評價