[轉] Trie樹詳解及其應用
阿新 • • 發佈:2019-01-18
一、知識簡介
最近在看字串演算法了,其中字典樹、AC自動機和字尾樹的應用是最廣泛的了,下面將會重點介紹下這幾個演算法的應用。
字典樹(Trie)可以儲存一些字串->值的對應關係。基本上,它跟 Java 的 HashMap 功能相同,都是 key-value 對映,只不過 Trie 的 key 只能是字串。
Trie 的強大之處就在於它的時間複雜度。它的插入和查詢時間複雜度都為 O(k) ,其中 k 為 key 的長度,與 Trie 中儲存了多少個元素無關。Hash 表號稱是 O(1) 的,但在計算 hash 的時候就肯定會是 O(k) ,而且還有碰撞之類的問題;Trie 的缺點是空間消耗很高。
至於Trie樹的實現,可以用陣列,也可以用指標動態分配,我做題時為了方便就用了陣列,靜態分配空間。
Trie樹,又稱單詞查詢樹或鍵樹,是一種樹形結構,是一種雜湊樹的變種。典型應用是用於統計和排序大量的字串(但不僅限於字串),所以經常被搜尋引擎系統用於文字詞頻統計。它的優點是:最大限度地減少無謂的字串比較,查詢效率比雜湊表高。
Trie的核心思想是空間換時間。利用字串的公共字首來降低查詢時間的開銷以達到提高效率的目的。
Trie樹的基本性質可以歸納為:
(1)根節點不包含字元,除根節點意外每個節點只包含一個字元。
(2)從根節點到某一個節點,路徑上經過的字元連線起來,為該節點對應的字串。
(3)每個節點的所有子節點包含的字串不相同。
Trie樹有一些特性:
1)根節點不包含字元,除根節點外每一個節點都只包含一個字元。
2)從根節點到某一節點,路徑上經過的字元連線起來,為該節點對應的字串。
3)每個節點的所有子節點包含的字元都不相同。
4)如果字元的種數為n,則每個結點的出度為n,這也是空間換時間的體現,浪費了很多的空間。
5)插入查詢的複雜度為O(n),n為字串長度。
基本思想(以字母樹為例):
1、插入過程
對於一個單詞,從根開始,沿著單詞的各個字母所對應的樹中的節點分支向下走,直到單詞遍歷完,將最後的節點標記為紅色,表示該單詞已插入Trie樹。
2、查詢過程
同樣的,從根開始按照單詞的字母順序向下遍歷trie樹,一旦發現某個節點標記不存在或者單詞遍歷完成而最後的節點未標記為紅色,則表示該單詞不存在,若最後的節點標記為紅色,表示該單詞存在。
二、字典樹的資料結構:
利用串構建一個字典樹,這個字典樹儲存了串的公共字首資訊,因此可以降低查詢操作的複雜度。
下面以英文單詞構建的字典樹為例,這棵Trie樹中每個結點包括26個孩子結點,因為總共有26個英文字母(假設單詞都是小寫字母組成)。
則可宣告包含Trie樹的結點資訊的結構體:
如給出字串"abc","ab","bd","dda",根據該字串序列構建一棵Trie樹。則構建的樹如下:
Trie樹的根結點不包含任何資訊,第一個字串為"abc",第一個字母為'a',因此根結點中陣列next下標為'a'-97的值不為NULL,其他同理,構建的Trie樹如圖所示,紅色結點表示在該處可以構成一個單詞。很顯然,如果要查詢單詞"abc"是否存在,查詢長度則為O(len),len為要查詢的字串的長度。而若採用一般的逐個匹配查詢,則查詢長度為O(len*n),n為字串的個數。顯然基於Trie樹的查詢效率要高很多。
如上圖中:Trie樹中存在的就是abc、ab、bd、dda四個單詞。在實際的問題中可以將標記顏色的標誌位改為數量count等其他符合題目要求的變數。
已知n個由小寫字母構成的平均長度為10的單詞,判斷其中是否存在某個串為另一個串的字首子串。下面對比3種方法:
1、 最容易想到的:即從字串集中從頭往後搜,看每個字串是否為字串集中某個字串的字首,複雜度為O(n^2)。
2、 使用hash:我們用hash存下所有字串的所有的字首子串。建立存有子串hash的複雜度為O(n*len)。查詢的複雜度為O(n)* O(1)= O(n)。
3、 使用Trie:因為當查詢如字串abc是否為某個字串的字首時,顯然以b、c、d....等不是以a開頭的字串就不用查找了,這樣迅速縮小查詢的範圍和提高查詢的針對性。所以建立Trie的複雜度為O(n*len),而建立+查詢在trie中是可以同時執行的,建立的過程也就可以成為查詢的過程,hash就不能實現這個功能。所以總的複雜度為O(n*len),實際查詢的複雜度只是O(len)。
三、Trie樹的操作
在Trie樹中主要有3個操作,插入、查詢和刪除。一般情況下Trie樹中很少存在刪除單獨某個結點的情況,因此只考慮刪除整棵樹。
1、插入
假設存在字串str,Trie樹的根結點為root。i=0,p=root。
1)取str[i],判斷p->next[str[i]-97]是否為空,若為空,則建立結點temp,並將p->next[str[i]-97]指向temp,然後p指向temp;
若不為空,則p=p->next[str[i]-97];
2)i++,繼續取str[i],迴圈1)中的操作,直到遇到結束符'\0',此時將當前結點p中的 exist置為true。
2、查詢
假設要查詢的字串為str,Trie樹的根結點為root,i=0,p=root
1)取str[i],判斷判斷p->next[str[i]-97]是否為空,若為空,則返回false;若不為空,則p=p->next[str[i]-97],繼續取字元。
2)重複1)中的操作直到遇到結束符'\0',若當前結點p不為空並且 exist 為true,則返回true,否則返回false。
3、刪除
刪除可以以遞迴的形式進行刪除。
字首查詢的典型應用:
http://acm.hdu.edu.cn/showproblem.php?pid=1251
最近在看字串演算法了,其中字典樹、AC自動機和字尾樹的應用是最廣泛的了,下面將會重點介紹下這幾個演算法的應用。
字典樹(Trie)可以儲存一些字串->值的對應關係。基本上,它跟 Java 的 HashMap 功能相同,都是 key-value 對映,只不過 Trie 的 key 只能是字串。
Trie 的強大之處就在於它的時間複雜度。它的插入和查詢時間複雜度都為 O(k) ,其中 k 為 key 的長度,與 Trie 中儲存了多少個元素無關。Hash 表號稱是 O(1) 的,但在計算 hash 的時候就肯定會是 O(k) ,而且還有碰撞之類的問題;Trie 的缺點是空間消耗很高。
至於Trie樹的實現,可以用陣列,也可以用指標動態分配,我做題時為了方便就用了陣列,靜態分配空間。
Trie樹,又稱單詞查詢樹或鍵樹,是一種樹形結構,是一種雜湊樹的變種。典型應用是用於統計和排序大量的字串(但不僅限於字串),所以經常被搜尋引擎系統用於文字詞頻統計。它的優點是:最大限度地減少無謂的字串比較,查詢效率比雜湊表高。
Trie的核心思想是空間換時間。利用字串的公共字首來降低查詢時間的開銷以達到提高效率的目的。
Trie樹的基本性質可以歸納為:
(1)根節點不包含字元,除根節點意外每個節點只包含一個字元。
(2)從根節點到某一個節點,路徑上經過的字元連線起來,為該節點對應的字串。
(3)每個節點的所有子節點包含的字串不相同。
Trie樹有一些特性:
1)根節點不包含字元,除根節點外每一個節點都只包含一個字元。
2)從根節點到某一節點,路徑上經過的字元連線起來,為該節點對應的字串。
3)每個節點的所有子節點包含的字元都不相同。
4)如果字元的種數為n,則每個結點的出度為n,這也是空間換時間的體現,浪費了很多的空間。
5)插入查詢的複雜度為O(n),n為字串長度。
基本思想(以字母樹為例):
1、插入過程
對於一個單詞,從根開始,沿著單詞的各個字母所對應的樹中的節點分支向下走,直到單詞遍歷完,將最後的節點標記為紅色,表示該單詞已插入Trie樹。
2、查詢過程
同樣的,從根開始按照單詞的字母順序向下遍歷trie樹,一旦發現某個節點標記不存在或者單詞遍歷完成而最後的節點未標記為紅色,則表示該單詞不存在,若最後的節點標記為紅色,表示該單詞存在。
二、字典樹的資料結構:
利用串構建一個字典樹,這個字典樹儲存了串的公共字首資訊,因此可以降低查詢操作的複雜度。
下面以英文單詞構建的字典樹為例,這棵Trie樹中每個結點包括26個孩子結點,因為總共有26個英文字母(假設單詞都是小寫字母組成)。
則可宣告包含Trie樹的結點資訊的結構體:
- typedefstruct Trie_node
- {
- int count; // 統計單詞前綴出現的次數
- struct Trie_node* next[26]; // 指向各個子樹的指標
-
bool exist;
- }TrieNode , *Trie;
如給出字串"abc","ab","bd","dda",根據該字串序列構建一棵Trie樹。則構建的樹如下:
Trie樹的根結點不包含任何資訊,第一個字串為"abc",第一個字母為'a',因此根結點中陣列next下標為'a'-97的值不為NULL,其他同理,構建的Trie樹如圖所示,紅色結點表示在該處可以構成一個單詞。很顯然,如果要查詢單詞"abc"是否存在,查詢長度則為O(len),len為要查詢的字串的長度。而若採用一般的逐個匹配查詢,則查詢長度為O(len*n),n為字串的個數。顯然基於Trie樹的查詢效率要高很多。
如上圖中:Trie樹中存在的就是abc、ab、bd、dda四個單詞。在實際的問題中可以將標記顏色的標誌位改為數量count等其他符合題目要求的變數。
已知n個由小寫字母構成的平均長度為10的單詞,判斷其中是否存在某個串為另一個串的字首子串。下面對比3種方法:
1、 最容易想到的:即從字串集中從頭往後搜,看每個字串是否為字串集中某個字串的字首,複雜度為O(n^2)。
2、 使用hash:我們用hash存下所有字串的所有的字首子串。建立存有子串hash的複雜度為O(n*len)。查詢的複雜度為O(n)* O(1)= O(n)。
3、 使用Trie:因為當查詢如字串abc是否為某個字串的字首時,顯然以b、c、d....等不是以a開頭的字串就不用查找了,這樣迅速縮小查詢的範圍和提高查詢的針對性。所以建立Trie的複雜度為O(n*len),而建立+查詢在trie中是可以同時執行的,建立的過程也就可以成為查詢的過程,hash就不能實現這個功能。所以總的複雜度為O(n*len),實際查詢的複雜度只是O(len)。
三、Trie樹的操作
在Trie樹中主要有3個操作,插入、查詢和刪除。一般情況下Trie樹中很少存在刪除單獨某個結點的情況,因此只考慮刪除整棵樹。
1、插入
假設存在字串str,Trie樹的根結點為root。i=0,p=root。
1)取str[i],判斷p->next[str[i]-97]是否為空,若為空,則建立結點temp,並將p->next[str[i]-97]指向temp,然後p指向temp;
若不為空,則p=p->next[str[i]-97];
2)i++,繼續取str[i],迴圈1)中的操作,直到遇到結束符'\0',此時將當前結點p中的 exist置為true。
2、查詢
假設要查詢的字串為str,Trie樹的根結點為root,i=0,p=root
1)取str[i],判斷判斷p->next[str[i]-97]是否為空,若為空,則返回false;若不為空,則p=p->next[str[i]-97],繼續取字元。
2)重複1)中的操作直到遇到結束符'\0',若當前結點p不為空並且 exist 為true,則返回true,否則返回false。
3、刪除
刪除可以以遞迴的形式進行刪除。
字首查詢的典型應用:
http://acm.hdu.edu.cn/showproblem.php?pid=1251
- #include<iostream>
- #include<cstring>
- usingnamespace std;
- typedefstruct Trie_node
- {
- int count; // 統計單詞前綴出現的次數
- struct Trie_node* next[26]; // 指向各個子樹的指標
- bool exist; // 標記該結點處是否構成單詞
- }TrieNode , *Trie;
- TrieNode* createTrieNode()
- {
- TrieNode* node = (TrieNode *)malloc(sizeof(TrieNode));
- node->count = 0;
- node->exist = false;
- memset(node->next , 0 , sizeof(node->next)); // 初始化為空指標
- return node;
- }
- void Trie_insert(Trie root, char* word)
- {
- Trie node = root;
- char *p = word;
- int id;
- while( *p )
- {
- id = *p - 'a';
- if(node->next[id] == NULL)
- {
- node->next[id] = createTrieNode();
- }
- node = node->next[id]; // 每插入一步,相當於有一個新串經過,指標向下移動
- ++p;
- node->count += 1; // 這行程式碼用於統計每個單詞前綴出現的次數(也包括統計每個單詞出現的次數)
- }
- node->exist = true; // 單詞結束的地方標記此處可以構成一個單詞
- }
- int Trie_search(Trie root, char* word)
- {
- Trie node = root;
- char *p = word;
- int id;
- while( *p )
- {
- id = *p - 'a';
- node = node->next[id];
- ++p;
- if(node == NULL)
- return 0;
- }
- return node->count;
- }
- int main(void)
- {
- Trie root = createTrieNode(); // 初始化字典樹的根節點
- char str[12] ;
- bool flag = false;
- while(gets(str))
- {
- if(flag)
- printf("%d\n",Trie_search(root , str));
- else
- {
- if(strlen(str) != 0)
- {
- Trie_insert(root , str);
- }
- else
- flag = true;
- }
- }
- return 0;
- }
- #include<iostream>
- #include<cstring>
- usingnamespace std;
- typedefstruct Trie_node
- {
- int count; // 統計單詞前綴出現的次數
- struct Trie_node* next[26]; // 指向各個子樹的指標
- bool exist; // 標記該結點處是否構成單詞
- char trans[11]; // 翻譯
- }TrieNode , *Trie;
- TrieNode* createTrieNode()
- {
- TrieNode* node = (TrieNode *)malloc(sizeof(TrieNode));
- node->count = 0;
- node->exist = false;
- memset(node->next , 0 , sizeof(node->next)); // 初始化為空指標
- return node;
- }
- void Trie_insert(Trie root, char* word , char* trans)
- {
- Trie node = root;
- char *p = word;
- int id;
- while( *p )
- {
- id = *p - 'a';
- if(node->next[id] == NULL)
- {
- node->next[id] = createTrieNode();
- }
- node = node->next[id]; // 每插入一步,相當於有一個新串經過,指標向下移動
- ++p;
- node->count += 1; // 這行程式碼用於統計每個單詞前綴出現的次數(也包括統計每個單詞出現的次數)
- }
- node->exist = true; // 單詞結束的地方標記此處可以構成一個單詞
- strcpy(node->trans , trans);
- }
- char* Trie_search(Trie root, char* word)
- {
- Trie node = root;
- char *p = word;
- int id;
- while( *p )
- {
- id = *p - 'a';
- node = node->next[id];
- ++p;
- if(node == NULL)
- return 0;
- }
- if(node->exist) // 查詢成功
- return node->trans;
- else// 查詢失敗
- return NULL;
- }
- int main(void)
- {
- Trie root = createTrieNode(); // 初始化字典樹的根節點
- char str1[3003] , str2[3003] , str[3003] , *p;
- int i , k;
- scanf("%s",str1);
-
while(scanf("%s",str1) && strcmp(str1 ,