Trie樹|字首樹的介紹與實現

阿新 • • 發佈：2019-02-09

本文嘗試用盡量簡潔的語言介紹一種樹形資料結構 —— Trie樹。

一、什麼是Trie樹

Trie樹，又叫字典樹、字首樹（Prefix Tree）、單詞查詢樹 或鍵樹，是一種多叉樹結構。如下圖：

上圖是一棵Trie樹，表示了關鍵字集合{“a”, “to”, “tea”, “ted”, “ten”, “i”, “in”, “inn”} 。從上圖可以歸納出Trie樹的基本性質：

根節點不包含字元，除根節點外的每一個子節點都包含一個字元。
從根節點到某一個節點，路徑上經過的字元連線起來，為該節點對應的字串。
每個節點的所有子節點包含的字元互不相同。

通常在實現的時候，會在節點結構中設定一個

標誌，用來標記該結點處是否構成一個單詞（關鍵字）。

可以看出，Trie樹的關鍵字一般都是字串，而且Trie樹把每個關鍵字儲存在一條路徑上，而不是一個結點中。另外，兩個有公共字首的關鍵字，在Trie樹中字首部分的路徑相同，所以Trie樹又叫做字首樹（Prefix Tree）。

二、Trie樹的優缺點

Trie樹的核心思想是空間換時間，利用字串的公共字首來減少無謂的字串比較以達到提高查詢效率的目的。

優點

插入和查詢的效率很高，都為O(m)，其中 m 是待插入/查詢的字串的長度。
- 關於查詢，會有人說 hash 表時間複雜度是O(1)不是更快？但是，雜湊搜尋的效率通常取決於 hash 函式的好壞，若一個壞的 hash 函式導致
  
  很多的衝突，效率並不一定比Trie樹高。
Trie樹中不同的關鍵字不會產生衝突。
Trie樹只有在允許一個關鍵字關聯多個值的情況下才有類似hash碰撞發生。
Trie樹不用求 hash 值，對短字串有更快的速度。通常，求hash值也是需要遍歷字串的。
Trie樹可以對關鍵字按字典序排序。

缺點

當 hash 函式很好時，Trie樹的查詢效率會低於雜湊搜尋。
空間消耗比較大。

三、Trie樹的應用

1、字串檢索

檢索/查詢功能是Trie樹最原始的功能。思路就是從根節點開始一個一個字元進行比較：

如果沿路比較，發現不同的字元，則表示該字串在集合中不存在。
如果所有的字元全部比較完並且全部相同，還需判斷最後一個節點的標誌位（標記該節點

是否代表一個關鍵字）。

struct trie_node
{
    bool isKey;   // 標記該節點是否代表一個關鍵字
    trie_node *children[26]; // 各個子節點 
};

2、詞頻統計

Trie樹常被搜尋引擎系統用於文字詞頻統計。

struct trie_node
{
    int count;   // 記錄該節點代表的單詞的個數
    trie_node *children[26]; // 各個子節點 
};

思路：為了實現詞頻統計，我們修改了節點結構，用一個整型變數count來計數。對每一個關鍵字執行插入操作，若已存在，計數加1，若不存在，插入後count置1。

注意：第一、第二種應用也都可以用 hash table 來做。

3、字串排序

Trie樹可以對大量字串按字典序進行排序，思路也很簡單：遍歷一次所有關鍵字，將它們全部插入trie樹，樹的每個結點的所有兒子很顯然地按照字母表排序，然後先序遍歷輸出Trie樹中所有關鍵字即可。

4、字首匹配

例如：找出一個字串集合中所有以ab開頭的字串。我們只需要用所有字串構造一個trie樹，然後輸出以a->b->開頭的路徑上的關鍵字即可。

trie樹字首匹配常用於搜尋提示。如當輸入一個網址，可以自動搜尋出可能的選擇。當沒有完全匹配的搜尋結果，可以返回字首最相似的可能。

5、作為其他資料結構和演算法的輔助結構

如字尾樹，AC自動機等。

四、Trie樹的實現

這裡為了方便，我們假設所有的關鍵字都由 a-z 的字母組成。下面是 trie 樹的一種典型實現

#include <iostream>
#include <string>
using namespace std;

#define ALPHABET_SIZE 26

typedef struct trie_node
{
	int count;   // 記錄該節點代表的單詞的個數
	trie_node *children[ALPHABET_SIZE]; // 各個子節點 
}*trie;

trie_node* create_trie_node()
{
	trie_node* pNode = new trie_node();
	pNode->count = 0;
	for(int i=0; i<ALPHABET_SIZE; ++i)
		pNode->children[i] = NULL;
	return pNode;
}

void trie_insert(trie root, char* key)
{
	trie_node* node = root;
	char* p = key;
	while(*p)
	{
		if(node->children[*p-'a'] == NULL)
		{
			node->children[*p-'a'] = create_trie_node();
		}
		node = node->children[*p-'a'];
		++p;
	}
	node->count += 1;
}

/**
 * 查詢：不存在返回0，存在返回出現的次數
 */ 
int trie_search(trie root, char* key)
{
	trie_node* node = root;
	char* p = key;
	while(*p && node!=NULL)
	{
		node = node->children[*p-'a'];
		++p;
	}
	
	if(node == NULL)
		return 0;
	else
		return node->count;
}

int main()
{
	// 關鍵字集合
	char keys[][8] = {"the", "a", "there", "answer", "any", "by", "bye", "their"};
	trie root = create_trie_node();

	// 建立trie樹
	for(int i = 0; i < 8; i++)
		trie_insert(root, keys[i]);

	// 檢索字串
	char s[][32] = {"Present in trie", "Not present in trie"};
	printf("%s --- %s\n", "the", trie_search(root, "the")>0?s[0]:s[1]);
	printf("%s --- %s\n", "these", trie_search(root, "these")>0?s[0]:s[1]);
	printf("%s --- %s\n", "their", trie_search(root, "their")>0?s[0]:s[1]);
	printf("%s --- %s\n", "thaw", trie_search(root, "thaw")>0?s[0]:s[1]);

	return 0;
}

對於Trie樹，我們一般只需要插入和搜尋操作。上面這段程式碼實現了一棵Trie樹，該Trie樹可以用來檢索單詞和統計詞頻。

Trie樹|字首樹的介紹與實現

本文嘗試用盡量簡潔的語言介紹一種樹形資料結構 —— Trie樹。一、什麼是Trie樹 Trie樹，又叫字典樹、字首樹（Prefix Tree）、單詞查詢樹或鍵樹，是一種多叉樹結構。如下圖：上圖是一棵Trie樹，表示了關鍵字集合{“a”, “to”

AVL樹介紹與實現

/* * 刪除結點(z)，返回根節點 * * 引數說明： * ptree AVL樹的根結點 * z 待刪除的結點 * 返回值： * 根節點 */ static Node* delete_node(AVLTree tree, Node *z) { // 根為

[LeetCode] Implement Trie (Prefix Tree) 實現字典樹(字首樹)

Implement a trie with insert, search, and startsWith methods. Note:You may assume that all inputs are consist of lowercase letters a-z. 這道題讓我們實現一個重要但

k-d樹+bbf演算法的介紹與實現

最近還是一直在研究SIFT演算法，而SIFT特徵點匹配是一個比較經典的問題，使用暴力匹配的話確實可以得到結果，但是執行速度較慢。我的計算機處理是i5的二代系列，匹配兩張各檢測有2000+個SIFT特徵點的影象，通過正反匹配（即取影象1與影象2的匹配結果餘影象2和影象1的匹配

資料結構筆記：樹的儲存結構與實現

樹的結點的儲存結構 GTreeNode的設計與實現 template<typename T> class GTreeNode : public TreeNode<T> { public: LinkList<GTreeeNode<T>*&

Trie（字首樹/字典樹）及其應用

Trie，又經常叫字首樹，字典樹等等。它有很多變種，如字尾樹，Radix Tree/Trie，PATRICIA tree，以及bitwise版本的crit-bit tree。當然很多名字的意義其實有交叉。定義在電腦科學中，trie，又稱字首樹或字典樹，是一種有序樹，用於

二叉樹的儲存表示與實現（陳銳，葛麗萍跟我學資料結構整理）

1.二叉樹的順序儲存，即用一維陣列按照從左到右，從上到下的順序依次儲存，分析計算可得每個節點的編號，類似於樹狀陣列。適用於完全二叉樹。儲存非完全二叉樹時，需要在一維陣列中將二叉樹不存在的結點位置空出，並用NULL填充。 2.二叉樹.的鏈式儲存二叉樹的鏈式儲存結構二叉

資料結構——Trie 字典樹字首樹

一、什麼是Trie Trie不同於二分搜尋樹、堆、線段樹等二叉樹結構，Trie是一個多叉樹。使用場景：通訊錄高效搜尋，專為處理字串設計的。比如字典中有n條資料，如果使用樹結構，查詢的時間複雜度是O(logn)，如果有100萬條資料的話，logn大約是20，如果有1億

資料結構之赫夫曼樹的演算法介紹和實現

一、基礎知識：（1）最優二叉樹（赫夫曼樹）的介紹： a、路徑長度：從樹中一個結點到另一個結點之間的分支構成這兩個結點之間的路徑，路徑上分支數目稱做路徑長度。 b、樹的路徑長度：從樹根到每一個結點之間的路徑長度之和。上一篇介紹的完全二叉樹就是這種路徑長度最短的二叉樹。 c、

機器學習方法(四)：決策樹Decision Tree原理與實現技巧

歡迎轉載，轉載請註明：本文出自Bin的專欄blog.csdn.net/xbinworld。技術交流QQ群：433250724，歡迎對演算法、技術、應用感興趣的同學加入。前面三篇寫了線性迴歸，lasso，和LARS的一些內容，這篇寫一下決策樹這個經典的分

T樹索引的學習與實現（二）

原始碼： ttree.h原始碼： /* * ttree.h: header file * * T樹的結構 * */ #ifndef TTREE #define TTREE #include <QString> #include <QMap>

模式識別：分類迴歸決策樹CART的研究與實現

摘要：本實驗的目的是學習和掌握分類迴歸樹演算法。CART提供一種通用的樹生長框架，它可以例項化為各種各樣不同的判定樹。CART演算法採用一種二分遞迴分割的技術，將當前的樣本集分為兩個子樣本集，使得生成的決策樹的每個非葉子節點都有兩個分支。因此，CART演

二叉樹的儲存表示與實現

二叉樹的順序儲存完全二叉樹的儲存可以按照從上到下，從左到右的順序依次儲存在一維陣列中。完全二叉樹的順序儲存如圖所示：如果按照從上到下，從左到右的順序把非完全二叉樹

紅黑樹演算法的思想與實現（一）

紅黑樹是一顆二叉搜尋樹：樹中每一個節點不是黑色就是紅色。可以把一顆紅黑樹視為一顆擴充二叉樹，用外部節點表示空指標。。。有如下特性： 1.根節點和所有外部節點的顏色是黑色。 2.從根節點到外部節點的途中沒有連續兩個節點的顏色是紅色。 3.所有從根節點到外部節點的路徑上都有

[C語言]哈夫曼樹(Huffman)的構造與實現

C語言資料結構中哈夫曼樹是個重要的內容。哈夫曼主要是它的編碼應用可以保證譯碼的非二義性。每天堅持編寫一個程式，持之以恆，我們就會更加熟練的進行程式設計，從而為以後打下基礎。下面是今天編寫的HUffman樹的原始碼，因為純手寫，沒有執行，瞭

算法和數據結構～各位排序算法的介紹與實現(C#)

index per 歸並一次集中 div lag 合並如何排序是指將元素集合按照規定的順序排列。通常有兩種排序方法，升序排列和降序排列。例如，對整數集{5,2,7,1}進行升序排列，結果為{1,2,5,7}，對其進行降序排列結果為{7,5,2,1}。總的來說，排

基於HTTP 協議認證介紹與實現

idt 興趣 cati 生成保護進行 pos 響應 label 導言一直對http 的頭認證有興趣,就是路由器的那種彈出對話框輸入賬號密碼怎麽實現一直不明白,最近,翻了一下http 協議,發現這是一個RFC 2617的實現,所以寫篇文章介紹一下吧. Http基本認證

MPPT演算法（恆定電壓、擾動觀察、電導增量）介紹與實現過程

1、太陽能板的特性曲線太陽能板也叫光伏電池。是通過光電效應，把光能轉換為電能的裝置。先介紹太陽能板的特性。太陽能的額定引數是在地面光伏元件標準測試條件（STC）條件下測量得到的。 STC有三個條件：第一、光線通過大氣的實際距離為大氣垂直厚度的1.5倍。第二、

AES加密演算法的詳細介紹與實現

#include <stdio.h> #include <stdlib.h> #include <string.h> #include "aes.h" /** * S盒 */ static const int S[16][16] = { 0x63, 0

字典樹-字首樹和字尾樹

1 引言今天主要看的是樹中的兩個比較重要的資料結構——字首樹和字尾樹。在此之前，先來看兩個問題。（參考部落格：從Trie樹（字典樹）談到字尾樹） 1.1 問題１一個文字檔案，大約有一萬行，每行一個詞，要求統計出其中最頻繁出現的前10個詞，請給出思想，給出

Trie樹|字首樹的介紹與實現

一、什麼是Trie樹

二、Trie樹的優缺點

優點

缺點

三、Trie樹的應用

1、字串檢索

2、詞頻統計

3、字串排序

4、字首匹配

5、作為其他資料結構和演算法的輔助結構

四、Trie樹的實現

相關推薦