信息檢索——初識Trie樹

阿新 • • 發佈：2017-06-27

操作 font -c 字符 get 排序 span strong trietree

1、概述

　　Trie樹（ /tri:/ ），又稱前綴樹、字典樹，是種快速檢索的多叉樹結構，

Trie樹的基本性質可以歸納為：

（1）根節點不包含字符，除根節點意外每個節點只包含一個字符。

（2）從根節點到某一個節點，路徑上經過的字符連接起來，為該節點對應的字符串。

（3）每個節點的所有子節點包含的字符串不相同。

2、Trie基本實現

　　基本操作包括插入、刪除、查找等。

　　考慮到通常用於字典等內存較大的情況，應該加入序列化，分割等操作。

3、應用

接觸這一數據結構是因為分詞處理中的字典存儲問題，對這一問題Trie無意是一個足夠高效的數據結構，采用以空間換時間的方式，提供了良好的查找性能。此外還有一下應用：

1）字符串最長公共前綴

2）排序

　　先序遍歷整棵樹就是字典序的排序輸出。

3）作為其他數據結構或算法的輔助結構

　　如AC自動機、後綴樹等

4、優化

　　基本結構的插入、查找時間復雜度為O(N)，N為字符串長度

　　空間復雜度為和字典中字符種類的多少，串的長度有關。

主要優化方法有二分法、基數樹、雙數組等。具體性能可以參見《幾種Trie樹性能比較》

參考資料

（1）博客《數據結構之Trie樹》http://dongxicheng.org/structure/trietree/

（2）博客《幾種Trie樹性能比較》http://www.hankcs.com/nlp/performance-comparison-of-several-trie-tree.html

（3）wiki Trie https://en.wikipedia.org/wiki/Trie

信息檢索——初識Trie樹

操作 font -c 字符 get 排序 span strong trietree 1、概述　　Trie樹（ /tri:/ ），又稱前綴樹、字典樹，是種快速檢索的多叉樹結構， Trie樹的基本性質可以歸納為：（1）根節點不包含字符，除根節點意外每個節點只包含一個字

第二課、信息檢索原理

ron and 修改中國通配符檢索策略示例 nat 機構一、學術信息的檢索步驟 1、檢索準備： - 明確課題學科屬性、專業範圍及相關內容如：微生物降解苯酚的研究進展 - 弄清檢索課題的信息類型和時間要求即：為文獻類檢索課題還是事實數據類檢索課題

（一）信息檢索中的排序

排名 alt 解析搜索引擎 src 信息排序圖片鏈接總覽搜索引擎的六個核心組件：爬蟲、解析、索引、鏈接關系分析、查詢處理、排名（一）信息檢索中的排序

信息檢索和自然語言處理 IR&NLP howto

amp format ext tool inf 1-n stat ota ase 課程： 6.891 (Fall 2003): Machine Learning Approaches for Natural Language Processing http://www.ai

“擬人化”信息檢索——RPA“爬蟲思路”大有可為

ogl 阻止一定的多功能競爭對手付出反爬蟲會有需要伴隨公司RPA產品不斷拓展，客戶的需求也呈現多樣化的趨勢。最近在證券類客戶中，有這樣一個需求，就是網頁信息抓取工作（例如劵商自動給客戶發最新的資訊信息郵件，而這些工作通常都是在額外的工作時間完成的）。用傳統的

RDIFramework.NET ━ .NET快速信息化系統開發框架 V3.2->新增“行政區域管理”，同時大批量樹采用異步加載

rdiframework.net c# jquery easyui web前端快速開發框架　　行政區劃：簡稱政區，是國家為了進行分級管理而實行的區域劃分。中國現行的行政區劃實行如下原則：1、全國分為省、自治區、直轄市；2、省、自治區分為自治州、縣、自治縣、市；3、自治州分為縣、自治縣、

初識MFC----運行時類信息機制

初識鏈表數據結構 next 執行結構 bject 相關 lpc 1、運行時類信息機制的作用　　程序運行過程中，可以獲知對象的相關類的信息 2、運行時類信息機制的使用　　2.1類必須派生自CObject類　　2.2類內必須添加聲明宏 DECLARE_DYNAMIC

oracle仿全文檢索切詞機制實現文本信息類似度查找

pos rom 排除應用場景 popu ora mar 機制一個應用場景：依據keyword查詢與此keyword相似的信息，當中一些keyword要排除掉比如：“有限公司”、“有限責任公司”、“股份有限公司”等

進程（WINAPI），遍歷並查找樹狀的進程信息，實現控制系統進程

ces pop size blog ext 快照 -a 查找 printf #include <TlHelp32.h> //檢索系統全部進程 void showall() { PROCESSENTRY32 pe32 = {0}; pe32.dwSiz

C#_從DataTable中檢索信息

int 說明 () [] font blog where 所有字符 C#_從DataTable中檢索信息存在於內存中的虛擬表DataTable，綁定在數據顯示控件後，如果想在再檢索其中某些信息，可以利用DataTable.Select方法進行檢索，避免了重復

scrapy抓取拉勾網職位信息（一）——scrapy初識及lagou爬蟲項目建立

報錯中間鍵方式 set 分享圖片生成 pytho 薪酬 color 本次以scrapy抓取拉勾網職位信息作為scrapy學習的一個實戰演練 python版本：3.7.1 框架：scrapy（pip直接安裝可能會報錯，如果是vc++環境不滿足，建議直接安裝一個visua

[BJOI2014]大融合 LCT維護子樹信息

%s hup pre lld += splay ota name make Code: #include <cstdio> #include <algorithm> #include <cstring> #include <str

BZOJ 3637: Query on a tree VI LCT_維護子樹信息_點權轉邊權_好題

while esp play sca open return include highlight space Code: #include <cstring> #include <cstdio> #include <algorithm>

bzoj 3779 重組病毒——LCT維護子樹信息

發現 lan 然而 spl 之間 sca getch pro str 題目：https://www.lydsy.com/JudgeOnline/problem.php?id=3779 調了很久……已經懶得寫題解了。https://www.cnblogs.com/Zinn/p

bzoj 4530 大融合 —— LCT維護子樹信息

void tar urn rev ESS print algo pan pro 題目：https://www.lydsy.com/JudgeOnline/problem.php?id=4530 用LCT維護子樹 size，就是實邊和虛邊分開維護；看博客：https://b

python--輸入檢索詞自動爬取百度搜索頁標題信息

htm 中心 keyword == 一個經濟 () NPU 招聘會背景：在百度每次輸入關鍵詞檢索後，會出現很多的檢索頁，不利於有效閱讀，為更方便收集檢索信息，編寫了一個可以收集每個檢索頁與檢索詞相關的十條檢索信息（百度在每個檢索頁放置十條檢索標題信息）。可以根據需要選

微信網頁授權獲取用戶信息等機制

json 開發者 userinfo 技術分享 nal amp 分隔 response unionid 參考官方文檔 https://mp.weixin.qq.com/wiki/17/c0f37d5704f0b64713d5d2c37b468d75.html 1.用戶進入授權

SQL Server 收集數據庫死鎖信息

死鎖 eas declare 效果 cnblogs lar card bst ever 背景我們在數據庫出現阻塞及時郵件預警提醒中監控了數據庫的阻塞情況，為了更好的維護數據庫，特別是提升終端客戶用戶體驗，我們要盡量避免在數據庫中出現死鎖的情況。我們知道收集死鎖可以開啟跟蹤

訪問 PRODUCT_USER_PROFILE 時出錯警告: 未加載產品用戶概要文件信息!

訪問 product_user_profile 時出錯今天在oracle數據庫中創建了一個普通用戶，但是在連接的時候報了錯了一般這個錯誤：一般這個錯誤都是手工建庫的時候忘記做了一步才會報錯的[email protected]/* */ >conn ics/1q2w3eERROR:ORA-

【學生信息管理系統】EOF 和 BOF

少包 cell enter 常常 avi article ast 管理系統 style 敲完學生信息管理系統時，在刪除信息的時候，常常會出現下圖這種錯誤，遇到問題就要解決這個問題。經過查閱理解了記錄集Recordset的EOF和BOF屬性，用這兩個屬性能夠知道記錄集中是

信息檢索——初識Trie樹

相關推薦