1. 程式人生 > 其它 >線段樹、Trie和並查集02:Trie

線段樹、Trie和並查集02:Trie

Trie,又稱字典樹、字首樹,是一種N叉樹

Trie是一種專門為字典設計的資料結構,通常只用來處理字串;而之前的Map更適合稱為對映而不是字典,因為其儲存的物件不一定是字串

如果用TreeMap和Trie來查詢字串,TreeMap的時間複雜度為O(logn),而Trie的時間複雜度和總數n無關,只和字串的長度有關,每個節點只儲存一個字元

在n個條目中查詢字串 時間複雜度
TreeMap O(logn)
Trie O(w)

實現字典樹

import java.util.TreeMap;

/**
 * 字典樹一般儲存的都是字串,因此不使用泛型
 */
class Trie{

    private class Node{

        /**
         * 每個節點需要一個標誌isWord來判斷是否是一個字串的結尾,因為很多字串有重疊部分
         * 每個節點,其子節點的數目是不確定的,因此定義為TreeMap型別,每個節點的子節點都是一個集合,也即N叉樹
         */
        public boolean isWord;
        public TreeMap<Character, Node> next;

        public Node(boolean isWord){

            this.isWord = isWord;
            next = new TreeMap<>();
        }

        public Node(){

            this(false);
        }
    }

    private Node root;
    private int size;

    public Trie(){

        root = new Node();
        size = 0;
    }

    public int getSize(){

        return size;
    }

    /**
     * 增
     * 從根節點出發,先判斷子節點集合中有沒有當前要放入的字元,沒有就新增,然後繼續向下尋找(尋找下一個符合的子節點使用Map類的get()方法)
     * 因為字串可能重複,因此將新字串的isWord設定為true,此時才能size加1
     */
    public void add(String string){

        Node cur = root;

        for (int i = 0; i < string.length(); i++) {

            char c = string.charAt(i);

            if (cur.next.get(c) == null){
                cur.next.put(c, new Node());
            }

            cur = cur.next.get(c);
        }

        if (!cur.isWord){

            cur.isWord = true;
            size++;
        }
    }

    /**
     * 查
     */
    public boolean contains(String string){

        Node cur = root;

        for (int i = 0; i < string.length(); i++) {

            char c = string.charAt(i);

            if (cur.next.get(c) == null){
                return false;
            }
            else {
                cur = cur.next.get(c);
            }
        }

        return cur.isWord;
    }

    /**
     * 字首搜尋,字首是字串的子集
     */
    public boolean isPrefix(String prefix){

        Node cur = root;

        for (int i = 0; i < prefix.length(); i++) {

            char c = prefix.charAt(i);

            if (cur.next.get(c) == null){
                return false;
            }
            else {
                cur = cur.next.get(c);
            }
        }

        return true;
    }
}

字典樹的侷限性

最大的問題:空間消耗!每個節點最少有26個子節點,都使用一個TreeMap集合來實現,空間消耗很大

優化的方向:壓縮字典樹、三分搜尋樹、字尾樹

壓縮字典樹(Compressed Trie)

將字母合併為詞綴

三分搜尋樹(Ternary Search Trie)

每個節點有三個孩子,分別小於、等於和大於自身