1. 程式人生 > >67.倒排索引結構理解

67.倒排索引結構理解

cpu 出現 log ans post cache nor 所有 lis

倒排索引,是適合用於進行搜索的,倒排索引的結構是比較復雜的,總體來說包括以下幾個部分

1)包含這個關鍵詞的document list

2)包含這個關鍵詞的所有document的數量:IDFinverse document frequency

3)這個關鍵詞在每個document中出現的次數:TFterm frequency

4)這個關鍵詞在這個document中的次序

5)每個document的長度:length norm

6)包含這個關鍵詞的所有document的平均長度

倒排索引是不可變的,不可變的好處有:

1)不需要鎖,提升並發能力,避免鎖的問題

2)數據不變,只要cache內存足夠就可以一直保存在os cache中,

3)因為數據不變,filter cache可以一直駐留在內存中,提升性能

4)可以壓縮,節省cpuio開銷

倒排索引不可變的壞處:每次都要重新構建整個索引

67.倒排索引結構理解