線段樹、Trie和並查集02:Trie
阿新 • • 發佈:2021-11-13
Trie,又稱字典樹、字首樹,是一種N叉樹
Trie是一種專門為字典設計的資料結構,通常只用來處理字串;而之前的Map更適合稱為對映而不是字典,因為其儲存的物件不一定是字串
如果用TreeMap和Trie來查詢字串,TreeMap的時間複雜度為O(logn),而Trie的時間複雜度和總數n無關,只和字串的長度有關,每個節點只儲存一個字元
在n個條目中查詢字串 | 時間複雜度 |
---|---|
TreeMap | O(logn) |
Trie | O(w) |
實現字典樹
import java.util.TreeMap; /** * 字典樹一般儲存的都是字串,因此不使用泛型 */ class Trie{ private class Node{ /** * 每個節點需要一個標誌isWord來判斷是否是一個字串的結尾,因為很多字串有重疊部分 * 每個節點,其子節點的數目是不確定的,因此定義為TreeMap型別,每個節點的子節點都是一個集合,也即N叉樹 */ public boolean isWord; public TreeMap<Character, Node> next; public Node(boolean isWord){ this.isWord = isWord; next = new TreeMap<>(); } public Node(){ this(false); } } private Node root; private int size; public Trie(){ root = new Node(); size = 0; } public int getSize(){ return size; } /** * 增 * 從根節點出發,先判斷子節點集合中有沒有當前要放入的字元,沒有就新增,然後繼續向下尋找(尋找下一個符合的子節點使用Map類的get()方法) * 因為字串可能重複,因此將新字串的isWord設定為true,此時才能size加1 */ public void add(String string){ Node cur = root; for (int i = 0; i < string.length(); i++) { char c = string.charAt(i); if (cur.next.get(c) == null){ cur.next.put(c, new Node()); } cur = cur.next.get(c); } if (!cur.isWord){ cur.isWord = true; size++; } } /** * 查 */ public boolean contains(String string){ Node cur = root; for (int i = 0; i < string.length(); i++) { char c = string.charAt(i); if (cur.next.get(c) == null){ return false; } else { cur = cur.next.get(c); } } return cur.isWord; } /** * 字首搜尋,字首是字串的子集 */ public boolean isPrefix(String prefix){ Node cur = root; for (int i = 0; i < prefix.length(); i++) { char c = prefix.charAt(i); if (cur.next.get(c) == null){ return false; } else { cur = cur.next.get(c); } } return true; } }
字典樹的侷限性
最大的問題:空間消耗!每個節點最少有26個子節點,都使用一個TreeMap集合來實現,空間消耗很大
優化的方向:壓縮字典樹、三分搜尋樹、字尾樹
壓縮字典樹(Compressed Trie)
將字母合併為詞綴
三分搜尋樹(Ternary Search Trie)
每個節點有三個孩子,分別小於、等於和大於自身