1. 程式人生 > 實用技巧 >讀論文啦!相關性匹配經典論文A Deep Relevance Matching Model for Ad-hoc Retrieval

讀論文啦!相關性匹配經典論文A Deep Relevance Matching Model for Ad-hoc Retrieval

我們知道:語義匹配可分為兩大類,基於表示的和基於互動的。

基於表示的:學習 query 和 doc ( 放在推薦裡就是 user 和 item ) 的 representation 表示,然後通過定義 matching score 函式。

基於互動的:這種方法是不直接學習query和doc的語義表示向量,而是**在底層,就讓query和doc提前互動,建立一些基礎的匹配訊號**,例如term和term層面的匹配,再想辦法把這些基礎的匹配訊號融合成一個匹配分。更強調待匹配兩端更充分的互動,以及互動基礎上的匹配

這篇文章是個基於互動的

一、首先建立起query和doc的區域性互動,不同於傳統基於互動的模型用一個匹配矩陣來表徵query term和doc term的區域性互動性步驟如下:

對於query中的每個term:
- 將它和文件的所有單詞的匹配分,離散化分桶,統計在每個桶上的次數,即得到一個關於這個和文件匹配分的一個直方圖,即一個向量。
 - 得到上述向量後,使用全連線層學習匹配分。注意,不同的單詞 ,這些全連線層的引數是共享的。
  - 將上述的匹配分加權求和,這裡的權重論文中也介紹了兩者方法,其中一種是使用簡單的IDF。

,

[注意]query term和doc term 的向量表示是通過WORD2VEC 訓練得到的,向量訓練好在模型中 凍結掉,不參與訓練。 理由如下: 1.詞表示通過訓練好的WORD2VEC已經得到很好的表示,畢竟從大量無標註資料訓練出來的。 2.凍結住詞向量能讓我們更好地關注相關性匹配這塊。 model training:由於是個排序問題,pairwise ranking loss such as hinge loss to train our deep relevance matching model.

二、Matching Histogram Mapping

上一步的輸出是query和doc的區域性互動性,但聰明的你肯定會想到:query和doc長度都是不定的呀!!之前基於互動的模型這個匹配矩陣保留了query和doc中詞條的順序,這對於位置敏感的任務是很有用的。但是根據多樣匹配性的要求,相關性匹配並不關心位置資訊,因為與query相關的內容能出現在一個長文件的任一位置。這篇文章採用了匹配直方圖,因為詞條之間相關性在【-1,1】之間,劃分為以下五個子區間{[−1,−0.5), [−0.5,−0), [0, 0.5), [0.5, 1), [1, 1]},[1,1]表示精準匹配,再統計落在每個字區間的個數,最終得到的形式是 類似[0, 1, 3, 1, 1]這樣一個向量表示。

此篇論文介紹了三種Matching Histogram Mapping方法:基於計數的;基於歸一化的;基於log-COUNT的(對計數值取log。)

三、Feed forwardMatching Network

四、Term Gating Network

之前基於互動的模型在matching 矩陣上進行CNN的系列操作,這會保留了詞之間的順序資訊,這對於語義匹配任務來說是重要的,因為詞之間的順序很影響整個句子的語義。雖然也有些模型利用一些pooling策略將位置敏感的互動轉換成詞強度的互動,MV-LSTM應用K-max pooling從matching矩陣中選取強度前K大的訊號作為MLP的輸入,但會帶來這麼有一個毛病:使得模型傾向於長文字,因為長文字含與query相關的詞的可能性更大。

這篇論文Term Gating Network來建模query中term的重要性,

xi 就是query中第i個詞的輸入,有以下兩種輸入

詞向量:query中第i個詞對應的向量;

IDF:query中第i個詞對應的逆文件頻率。

gi:query中第i個詞貢獻了多少相關度

五、模型訓練

很經典的pairwise ranking

此篇論文含 調參說明和ablation study ​Impact of Term Embeddings:實驗了50,100,300,500維度,結果先上升後下降。 ​對於低維的詞向量不足以表達起 相似性匹配,但過高維度又需要更多資料來支撐 ​impact of Matching Histogram:為了將不定長的區域性互動表徵變成定長的表示,用dynamic pooling, k-max pooling來代替 ​impact of term gating network 這個模型的優點是: - - 區分精確匹配和普通的相似度匹配訊號
- 使用直方圖,不用像卷積那樣子使用padding
- 相比原始的匹配訊號,直方分佈圖更魯棒 缺點是: - 失去了位置資訊。但這篇論文要解決的是Ad-hoc Retrieval的問題,位置資訊相對沒那麼重要。