1. 程式人生 > 實用技巧 >【閱讀筆記】《資訊檢索導論》第二章 詞項詞典及倒排記錄表

【閱讀筆記】《資訊檢索導論》第二章 詞項詞典及倒排記錄表

【閱讀筆記】《資訊檢索導論》第二章 詞項詞典及倒排記錄表

文件分析及編碼轉換

1、判斷文件的編碼方式(ASCII,UTF-8等),將位元組序列轉換成線性的字元序列
2、確定文件的索引單位(索引粒度問題indexing granularity)
*注:索引粒度太小,詞項散佈在多個細粒度文件中,錯過重要段落,正確率高而召回率低。
索引粒度太大,不相關的匹配結果太多,導致正確率低召回率高。

詞項集合的確定

1、詞條化(tokenization)

詞條化:將給定字元序列拆分成一系列子序列的過程,其中每個子序列稱為一個詞條。

詞義辨析:
詞條(token):文件中出現的字元序列的一個例項
詞條類(type):相同詞條構成的集合
詞項(term):詞典中所包含的經過歸一化處理的詞條類

2、去除停用詞

常用方法:將詞項按照文件集頻率從高到低排列,然後手工選擇那些語義內容與文件主題關係不大的高頻詞作為停用詞。
目的:減小系統所需要儲存的倒排記錄表的數目。

3、詞項歸一化

隱式地建立等價類:不需要事先計算出等價類的全部元素,如使用去掉連字元的對映規則

顯示的建立等價(維持多個非歸一化詞條間的關聯關係-可擴充套件成手工建立同義詞詞表):

  • 查詢時擴充套件
    為某個查詢項維護一張包含多個詞的查詢擴充套件詞表,輸入一個查詢項時,根據擴充套件詞表進行擴充套件並將擴充套件後得到的多個詞所對應的倒排記錄表合在一起。

  • 構建索引時擴充套件
    如,對於包含automobile的文件,同時也用car來索引(同樣,包含car的文件也用automobile來索引)

4、詞幹還原和詞形歸併

詞幹還原:粗略的去除單詞兩端詞綴(如複數詞綴等)的啟發式過程

詞形歸併:利用詞彙表和詞形分析來去除曲折詞綴,返回詞的原形的過程,返回的結果稱為詞元。

基於跳錶的倒排記錄錶快速合併演算法

跳錶(skip list):在構建索引的同時在倒排記錄表上建立跳錶,跳錶指標能夠提供捷徑來跳過那些不可能出現在檢索結果中的

  • List item

記錄項。
在這裡插入圖片描述
當跳錶指標目標項仍然小 於另一個表的當前比較項時可以採用跳錶指標直接跳轉。

  • 跳錶指標的設定:在每個根號P處均勻放置跳錶指標,P是倒排記錄表長度

含位置資訊的倒排記錄表及短語查詢

對於一些複雜的或技術性概念、機構名和產品名等多個詞語的複合詞或短語,希望在查詢中將這類詞語看成一個整體。以下將考慮兩種支援短語查詢的方式及它們的混合使用。

二元詞索引

對文件中每個接續詞(biword)對看成詞項,這樣就可以處理兩個詞構成的短語查詢,更長的查詢可分成多個短查詢來處理。
例如,查詢stanford university palo alto分成如下的布林查詢:
在這裡插入圖片描述

  • 詞性模式的擴充套件二元詞索引
    對於名詞短語,相關的名詞被虛詞分開,可採用如下方式:
    1、將文字進行詞條化然後進行詞性標註
    2、將每個詞項歸成名詞(N),虛詞(X)和其他詞
    3、將形式為NX*N非詞項序列看成一個擴充套件二元詞。

位置資訊索引

在位置資訊索引(positional index)中,對於每個詞項,以如下方式儲存倒排記錄:
在這裡插入圖片描述

根據這種方式,可構建如下的位置索引:

在這裡插入圖片描述
上圖中,單詞 to 的文件頻率是 993427, 在文件 1 中出現 6 次,位置分別是 7、18、33等。

在這裡插入圖片描述

混合索引機制

混合策略:對某些高頻常見的查詢使用短語索引或二元詞索引(基於位置索引的倒排記錄表合併方式效率很低),對於其他短語查詢則採用位置索引。

後續詞索引, 一種更復雜的混合索引機制:即對每個詞項,有個後續詞索引記錄它在文件中的下一個詞項。