字典樹(trie樹)

阿新 • • 發佈：2019-01-20

1. 字串檢索，詞頻統計，搜尋引擎的熱門查詢

事先將已知的一些字串（字典）的有關資訊儲存到trie樹裡，查詢另外一些未知字串是否出現過或者出現頻率。

舉例：

1）有一個1G大小的一個檔案，裡面每一行是一個詞，詞的大小不超過16位元組，記憶體限制大小是1M。返回頻數最高的100個詞。

2）給出N 個單片語成的熟詞表，以及一篇全用小寫英文書寫的文章，請你按最早出現的順序寫出所有不在熟詞表中的生詞。

3）給出一個詞典，其中的單詞為不良單詞。單詞均為小寫字母。再給出一段文字，文字的每一行也由小寫字母構成。判斷文字中是否含有任何不良單詞。例如，若rob是不良單詞，那麼文字problem含有不良單詞。

4）1000萬字符串，其中有些是重複的，需要把重複的全部去掉，保留沒有重複的字串

5）尋找熱門查詢：搜尋引擎會通過日誌檔案把使用者每次檢索使用的所有檢索串都記錄下來，每個查詢串的長度為1-255位元組。假設目前有一千萬個記錄，這些查詢串的重複讀比較高，雖然總數是1千萬，但是如果去除重複和，不超過3百萬個。一個查詢串的重複度越高，說明查詢它的使用者越多，也就越熱門。請你統計最熱門的10個查詢串，要求使用的記憶體不能超過1G。

2. 字串最長公共字首

Trie樹利用多個字串的公共字首來節省儲存空間，反之，當我們把大量字串儲存到一棵trie樹上時，我們可以快速得到某些字串的公共字首。舉例：

1) 給出N 個小寫英文字母串，以及Q 個詢問，即詢問某兩個串的最長公共字首的長度是多少. 解決方案：

首先對所有的串建立其對應的字母樹。此時發現，對於兩個串的最長公共字首的長度即它們所在結點的公共祖先個數，於是，問題就轉化為了離線（Offline）的最近公共祖先（Least Common Ancestor，簡稱LCA）問題。

而最近公共祖先問題同樣是一個經典問題，可以用下面幾種方法：

1. 利用並查集（Disjoint Set），可以採用採用經典的Tarjan 演算法；

2. 求出字母樹的尤拉序列（Euler Sequence ）後，就可以轉為經典的最小值查詢（Range Minimum Query，簡稱RMQ）問題了；

3. 排序

Trie樹是一棵多叉樹，只要先序遍歷整棵樹，輸出相應的字串便是按字典序排序的結果。

舉例：給你N 個互不相同的僅由一個單詞構成的英文名，讓你將它們按字典序從小到大排序輸出。

4 作為其他資料結構和演算法的輔助結構

如字尾樹，AC自動機等。

字典樹(trie樹)

1. 字串檢索，詞頻統計，搜尋引擎的熱門查詢

2. 字串最長公共字首

3. 排序

4 作為其他資料結構和演算法的輔助結構

字典樹Trie樹

字典樹(trie樹)

字典數Trie樹詳解及其應用

二叉樹--trie樹

Trie樹（字典樹）（1）

trie樹（字典樹）

【數據結構】前綴樹/字典樹/Trie

HDU - 1251 統計難題【字典樹Trie】

hiho 第2周 Trie樹（字典樹）

字典樹(Trie)

Immediate Decodability UVA - 644 (字典樹trie)

Remember the Word UVALive - 3942(字典樹trie)

字典樹(Trie)的學習筆記

字典樹 trie

【模板】Trie樹（字典樹，單詞查詢樹）

字首樹( 又名：TRIE樹、單詞查詢樹、字典樹) 和字尾樹(Suffix樹)

字典樹（Trie樹）模板陣列表示 + 連結串列表示

Trie樹（字典樹）：應用於統計和排序

java字典樹(Trie)實現中文模糊匹配

資料結構——Trie 字典樹字首樹

字典樹(trie樹)

1. 字串檢索，詞頻統計，搜尋引擎的熱門查詢

2. 字串最長公共字首

3. 排序

4 作為其他資料結構和演算法的輔助結構

相關推薦