字典樹入門

阿新 • • 發佈：2017-08-12

search 字典樹 ins size 簡單 i++ ret 如果自動機

字典樹摘自 https://songlee24.github.io/2015/05/09/prefix-tree/

一、什麽是Trie樹

Trie樹，又叫字典樹、前綴樹（Prefix Tree）、單詞查找樹 或鍵樹，是一種多叉樹結構。如下圖：

上圖是一棵Trie樹，表示了關鍵字集合{“a”, “to”, “tea”, “ted”, “ten”, “i”, “in”, “inn”} 。從上圖可以歸納出Trie樹的基本性質：

根節點不包含字符，除根節點外的每一個子節點都包含一個字符。
從根節點到某一個節點，路徑上經過的字符連接起來，為該節點對應的字符串。
每個節點的所有子節點包含的字符互不相同。

通常在實現的時候，會在節點結構中設置一個標誌，用來標記該結點處是否構成一個單詞（關鍵字）。

可以看出，Trie樹的關鍵字一般都是字符串，而且Trie樹把每個關鍵字保存在一條路徑上，而不是一個結點中。另外，兩個有公共前綴的關鍵字，在Trie樹中前綴部分的路徑相同，所以Trie樹又叫做前綴樹（Prefix Tree）。

二、Trie樹的優缺點

Trie樹的核心思想是空間換時間，利用字符串的公共前綴來減少無謂的字符串比較以達到提高查詢效率的目的。

優點

插入和查詢的效率很高，都為$O(m)$，其中 $m$ 是待插入/查詢的字符串的長度。
- 關於查詢，會有人說 hash 表時間復雜度是$O(1)$不是更快？但是，哈希搜索的效率通常取決於 hash 函數的好壞，若一個壞的 hash 函數導致很多的沖突，效率並不一定比Trie樹高。
Trie樹中不同的關鍵字不會產生沖突。
Trie樹只有在允許一個關鍵字關聯多個值的情況下才有類似hash碰撞發生。
Trie樹不用求 hash 值，對短字符串有更快的速度。通常，求hash值也是需要遍歷字符串的。
Trie樹可以對關鍵字按字典序排序。

缺點

當 hash 函數很好時，Trie樹的查找效率會低於哈希搜索。
空間消耗比較大。

三、Trie樹的應用

1、字符串檢索

檢索/查詢功能是Trie樹最原始的功能。思路就是從根節點開始一個一個字符進行比較：

如果沿路比較，發現不同的字符，則表示該字符串在集合中不存在。

如果所有的字符全部比較完並且全部相同，還需判斷最後一個節點的標誌位（標記該節點是否代表一個關鍵字）。

1 struct trie_node
2 {
3     bool isKey;   // 標記該節點是否代表一個關鍵字
4     trie_node *children[26]; // 各個子節點 
5 };

Trie樹常被搜索引擎系統用於文本詞頻統計。2、詞頻統計

1 struct trie_node
2 {
3     int count;   // 記錄該節點代表的單詞的個數
4     trie_node *children[26]; // 各個子節點 
5 };

思路：為了實現詞頻統計，我們修改了節點結構，用一個整型變量count來計數。對每一個關鍵字執行插入操作，若已存在，計數加1，若不存在，插入後count置1。

註意：第一、第二種應用也都可以用 hash table 來做。

3、字符串排序

Trie樹可以對大量字符串按字典序進行排序，思路也很簡單：遍歷一次所有關鍵字，將它們全部插入trie樹，樹的每個結點的所有兒子很顯然地按照字母表排序，然後先序遍歷輸出Trie樹中所有關鍵字即可。

4、前綴匹配

例如：找出一個字符串集合中所有以ab開頭的字符串。我們只需要用所有字符串構造一個trie樹，然後輸出以a->b->開頭的路徑上的關鍵字即可。

trie樹前綴匹配常用於搜索提示。如當輸入一個網址，可以自動搜索出可能的選擇。當沒有完全匹配的搜索結果，可以返回前綴最相似的可能。

5、作為其他數據結構和算法的輔助結構

如後綴樹，AC自動機等。

四、Trie樹的實現

這裏為了方便，我們假設所有的關鍵字都由 a-z 的字母組成。下面是 trie 樹的一種典型實現：

 1 #include <iostream>
 2 #include <string>
 3 using namespace std;
 4 
 5 #define ALPHABET_SIZE 26
 6 
 7 typedef struct trie_node
 8 {
 9     int count;   // 記錄該節點代表的單詞的個數
10     trie_node *children[ALPHABET_SIZE]; // 各個子節點 
11 }*trie;
12 
13 trie_node* create_trie_node()
14 {
15     trie_node* pNode = new trie_node();
16     pNode->count = 0;
17     for(int i=0; i<ALPHABET_SIZE; ++i)
18         pNode->children[i] = NULL;
19     return pNode;
20 }
21 
22 void trie_insert(trie root, char* key)
23 {
24     trie_node* node = root;
25     char* p = key;
26     while(*p)
27     {
28         if(node->children[*p-‘a‘] == NULL)
29         {
30             node->children[*p-‘a‘] = create_trie_node();
31         }
32         node = node->children[*p-‘a‘];
33         ++p;
34     }
35     node->count += 1;
36 }
37 
38 /**
39  * 查詢：不存在返回0，存在返回出現的次數
40  */ 
41 int trie_search(trie root, char* key)
42 {
43     trie_node* node = root;
44     char* p = key;
45     while(*p && node!=NULL)
46     {
47         node = node->children[*p-‘a‘];
48         ++p;
49     }
50     
51     if(node == NULL)
52         return 0;
53     else
54         return node->count;
55 }
56 
57 int main()
58 {
59     // 關鍵字集合
60     char keys[][8] = {"the", "a", "there", "answer", "any", "by", "bye", "their"};
61     trie root = create_trie_node();
62 
63     // 創建trie樹
64     for(int i = 0; i < 8; i++)
65         trie_insert(root, keys[i]);
66 
67     // 檢索字符串
68     char s[][32] = {"Present in trie", "Not present in trie"};
69     printf("%s --- %s\n", "the", trie_search(root, "the")>0?s[0]:s[1]);
70     printf("%s --- %s\n", "these", trie_search(root, "these")>0?s[0]:s[1]);
71     printf("%s --- %s\n", "their", trie_search(root, "their")>0?s[0]:s[1]);
72     printf("%s --- %s\n", "thaw", trie_search(root, "thaw")>0?s[0]:s[1]);
73 
74     return 0;
75 }

對於Trie樹，我們一般只需要插入和搜索操作。上面這段代碼實現了一棵Trie樹，該Trie樹可以用來檢索單詞和統計詞頻。

字典樹入門

HDU 5687 字典樹入門

!= 超過成了 spl 統計 names cnblogs nbsp otto Problem C Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others)To

字典樹入門

search 字典樹 ins size 簡單 i++ ret 如果自動機字典樹摘自 https://songlee24.github.io/2015/05/09/prefix-tree/ 一、什麽是Trie樹 Trie樹，又叫字典樹、前綴樹（Prefix Tree

字典樹入門——POJ 2001

A prefix of a string is a substring starting at the beginning of the given string. The prefixes of "carbon" are: "c", "ca", "car", "carb", "carbo", and "

POJ 3630：Phone List（字典樹入門）

題目意思：如果撥打的電話號碼的字首是一個完整的電話號碼，則這個電話就不能撥通，判斷給出的電話列表是否全部能撥通。這個題目只用再建立字典樹的過程中做判斷就行了，沒必要建完之後再去查詢，我們可以在節

poj--2503+字典樹入門題

字典樹入門題將字串結尾的標記為一個字串，然後就可以用字典樹的插入和查找了程式碼如下： #include<iostream> #include<cstring> #inc

（字典樹3道水題）codeforces 665E&282E&514C

eps trie sub amp ret sea 動態應該 signed 665E 題意：給一個數列和一個整數k，求這個數列中異或起來大於等於k的子串數量。分析：其實只要維護一個維護前綴和就行了，把前綴和加到字典樹裏，然後遞歸search一下，註意需要剪枝，

線段樹入門

擴大中一復雜度 open else for 個數 hide line 一。概念線段樹是用於處理區間的復雜度為O(log n)一類數據結構。線段樹是一棵完美二叉樹（區別於完全二叉樹）。樹上的每個節點維護一個區間，且為父親節點的區間二等分後的其中一個子區間。二. 基

hdu1705(字典樹)

++ pid nbsp cout string char scanf amp pan 題目鏈接：http://acm.hdu.edu.cn/showproblem.php?pid=1075 兩個星期沒有刷題了，，從今天開始吧，先從hiho開始刷，鞏固一下之前學的。。可以用

[ACM] hdu 1251 統計難題（字典樹）

第一次 stdio.h scrip null 明顯 output 代碼 ane 處理統計難題 Problem Description Ignatius近期遇到一個難題,老師交給他非常多單詞(僅僅有小寫字母組成,不會有反復的單詞出現),如今老師要他統計出以某

[01字典樹]求序列完美度(求區間最大異或值)

函數表字典 style targe efi cnblogs main code blank https://nanti.jisuanke.com/t/15531 解題關鍵：01字典樹模板，用字典樹保存每個數的二進制表示，從而動態維護區間上的最大異或值，註意添加和刪除都可

字典樹（"strcmp()" Anyone? uva11732）

pre call solution only notes take printf when 計算 strcmp() is a library function in C/C++ which compares two strings. It takes two strings

簡述字典樹

例如三層數據發現查找經典題目 nbsp 暴力枚舉匹配字符串字典是用來查閱某一個字或詞的，所謂字典樹也就是用於查找某一個數字序列或字符串的。字典樹又稱Trie樹，是一種用樹狀結構存儲字符串的數據結構，經典題目有最長公共前綴、單詞統計等。字典樹的存儲字典樹

字典樹

http 字符串前綴 src 變量 als str trie 指針 roo 字典樹可以用來快速查找字符串前綴 a.b.e.h匯聚於一點，該點為根節點。從根節點開始，每遇到一個紅點就可以組成一個單詞（相當於紅點被標記）。節點的建立： 1 struct Nod{ 2

hiho兄弟的字典樹之爭（hiho1014）

應該 http targe 說道 eight 最壞情況傳說信息字母小Hi和小Ho是一對好朋友，出生在信息化社會的他們對編程產生了莫大的興趣，他們約定好互相幫助，在編程的學習道路上一同前進。這一天，他們遇到了一本詞典，於是小Hi就向小Ho提出了那個經典的問題：“小H

codechef Xor Queries (可持久化字典樹)

names truct codec eee one root opened mes main 題目鏈接：codechef Xor Queries 題意：題解：一棵可持久化字典樹就行了。 1 #include<bits/stdc++.h> 2 #de

比較簡單的線段樹入門

define 需要時間 char 什麽 struct style 重要輸出格式線段樹是一種十分方便的數據結構，可以解決多段連續區間的查詢問題對比其他一些數據結構，線段樹能夠解決的問題是動態的，這也是線段樹的特性線段樹的性質還有每個節點保存一個線段，以及左節點保存的

UVA 12333 大數，字典樹

val long bit pla bre 個數 == one while 題意：給一個數字，看他最小是第幾個菲波那切數列的前綴。分析：大數模板就是吊哦。將菲波那切數列前500個數字放到字典樹上。註意插入的時候不能像普通一樣，只在尾節點處標記，而是一路標記下去。

字典樹模板

nbsp spa else space iostream ins out ring eat #include<iostream> #include<string> using namespace std; //表示next數組的長度，表示26個

HDU 6059 17多校3 Kanade's trio（字典樹）

要求 tro none sat details num cst void stream Problem Description Give you an array A[1..n]，you need to calculate how many tuples (i,j,k)

[poj2104]可持久化線段樹入門題（主席樹）

unique tor oot 入門題個數索引方便 return 出現的次數解題關鍵：離線求區間第k小，主席樹的經典裸題；對主席樹的理解：主席樹維護的是一段序列中某個數字出現的次數，所以需要預先離散化，最好使用vector的erase和unique函數，很方便；如

字典樹入門

字典樹 摘自 https://songlee24.github.io/2015/05/09/prefix-tree/

一、什麽是Trie樹

二、Trie樹的優缺點

優點

缺點

三、Trie樹的應用

1、字符串檢索

Trie樹常被搜索引擎系統用於文本詞頻統計 。2、詞頻統計

3、字符串排序

4、前綴匹配

5、作為其他數據結構和算法的輔助結構

四、Trie樹的實現

相關推薦

字典樹摘自 https://songlee24.github.io/2015/05/09/prefix-tree/

Trie樹常被搜索引擎系統用於文本詞頻統計。2、詞頻統計