1. 程式人生 > >實現一個正則表示式引擎in Python(三)

實現一個正則表示式引擎in Python(三)

專案地址:Regex in Python

前兩篇已經完成的寫了一個基於NFA的正則表示式引擎了,下面要做的就是更近一步,把NFA轉換為DFA,並對DFA最小化

DFA的定義

對於NFA轉換為DFA的演算法,主要就是將NFA中可以狀態節點進行合併,進而讓狀態節點對於一個輸入字元都有唯一的一個跳轉節點

所以對於DFA的節點就含有一個nfa狀態節點的集合和一個唯一的標識和對是否是接收狀態的flag

class Dfa(object):
    STATUS_NUM = 0

    def __init__(self):
        self.nfa_sets = []
        self.accepted = False
        self.status_num = -1

    @classmethod
    def nfas_to_dfa(cls, nfas):
        dfa = cls()
        for n in nfas:
            dfa.nfa_sets.append(n)
            if n.next_1 is None and n.next_2 is None:
                dfa.accepted = True

        dfa.status_num = Dfa.STATUS_NUM
        Dfa.STATUS_NUM = Dfa.STATUS_NUM + 1
        return dfa

NFA轉換為DFA

將NFA轉換為DFA的最終目標是獲得一張跳轉表,這個和之前C語言編譯的語法分析表有點像

這個函式就是NFA轉換為DFA的全部演算法了,主要邏輯就是:

  • 先利用之前的closure演算法,計算出可以合併的NFA節點,然後生成一個DFA的節點
  • 然後對這個DFA集合進行遍歷
  • 之後對於每個輸入字元進行move操作,然後對得到的move集合再進行一次closure操作,這樣就可以得到下一個DFA狀態節點(這裡還要進行一個判重的操作,就是可能當前DFA狀態節點可能已經生成過了)
  • 然後將這兩個節點的對應關係放入跳轉表中
  • 這時候的DFA如果其中含有的NFA存在一個可接收的狀態節點,那麼當前的DFA的當然也是可接受狀態了
def convert_to_dfa(nfa_start_node):
    jump_table = list_dict(MAX_DFA_STATUS_NUM)
    ns = [nfa_start_node]
    n_closure = closure(ns)
    dfa = Dfa.nfas_to_dfa(n_closure)
    dfa_list.append(dfa)

    dfa_index = 0
    while dfa_index < len(dfa_list):
        dfa = dfa_list[dfa_index]
        for i in range(ASCII_COUNT):
            c = chr(i)
            nfa_move = move(dfa.nfa_sets, c)
            if nfa_move is not None:
                nfa_closure = closure(nfa_move)
                if nfa_closure is None:
                    continue
                new_dfa = convert_completed(dfa_list, nfa_closure)
                if new_dfa is None:
                    new_dfa = Dfa.nfas_to_dfa(nfa_closure)
                    dfa_list.append(new_dfa)
                next_state = new_dfa.status_num
            jump_table[dfa.status_num][c] = next_state
            if new_dfa.accepted:
                jump_table[new_dfa.status_num]['accepted'] = True
        dfa_index = dfa_index + 1
    
    return jump_table

DFA最小化

DFA最小化本質上是也是對狀態節點的合併,然後分割槽

  1. 先根據是否為接收狀態進行分割槽
  2. 再根據DFA跳轉表的跳轉關係對分割槽裡的節點進行再次分割槽,如果當前DFA節點跳轉後的狀態節點也位於同一個分割槽中,證明它們可以被歸為一個分割槽
  3. 重複上面的演算法

Dfa分割槽定義

DfaGroup和之前的定義大同小異,都是有一個唯一的標識和一個放DFA狀態節點的list

class DfaGroup(object):
    GROUP_COUNT = 0

    def __init__(self):
        self.set_count()
        self.group = []

    def set_count(self):
        self.group_num = DfaGroup.GROUP_COUNT
        DfaGroup.GROUP_COUNT = DfaGroup.GROUP_COUNT + 1

    def remove(self, element):
        self.group.remove(element)

    def add(self, element):
        self.group.append(element)

    def get(self, count):
        if count > len(self.group) - 1:
            return None
        return self.group[count]

    def __len__(self):
        return len(self.group)

Minimize DFA

partition是最小化DFA演算法最重要的部分

  • 會先從跳轉表中找出當前DFA對應跳轉的下一個狀態節點
  • first是用來比較的DFA節點
  • 如果next節點的下一個狀態和first節點的下一狀態不在同一分割槽下的話,說明它們不可以在同一個分割槽
  • 就重新建立一個新分割槽

所以其實DFA最小化做的就是合併相同的下一個跳轉狀態的節點

def partition(jump_table, group, first, next, ch):
    goto_first = jump_table[first.status_num].get(ch)
    goto_next = jump_table[next.status_num].get(ch)

    if dfa_in_group(goto_first) != dfa_in_group(goto_next):
        new_group = DfaGroup()
        group_list.append(new_group)
        group.remove(next)
        new_group.add(next)
        return True

    return False

建立跳轉表

再分完區之後節點和節點間的跳轉就變成了區和區間的跳轉了

  • 遍歷DFA集合
  • 從之前的跳轉表中找到相應的節點和相應的跳轉關係
  • 然後找出它們對應的分割槽,即轉換為分割槽和分割槽之間的跳轉
def create_mindfa_table(jump_table):
    trans_table = list_dict(ASCII_COUNT)
    for dfa in dfa_list:
        from_dfa = dfa.status_num
        for i in range(ASCII_COUNT):
            ch = chr(i)
            to_dfa = jump_table[from_dfa].get(ch)
            if to_dfa:
                from_group = dfa_in_group(from_dfa)
                to_group = dfa_in_group(to_dfa)
                trans_table[from_group.group_num][ch] = to_group.group_num
        if dfa.accepted:
            from_group = dfa_in_group(from_dfa)
            trans_table[from_group.group_num]['accepted'] = True

    return trans_table

匹配輸入字串

利用跳轉表進行對輸入字串的匹配的邏輯非常簡單

  • 遍歷輸入的字串
  • 拿到當前狀態對應的輸入的跳轉關係
  • 進行跳轉或者完成匹配
def dfa_match(input_string, jump_table, minimize=True):
    if minimize:
        cur_status = dfa_in_group(0).group_num
    else:
        cur_status = 0 
    for i, c in enumerate(input_string):
        jump_dict = jump_table[cur_status]
        if jump_dict:
            js = jump_dict.get(c)
            if js is None:
                return False
            else:
                cur_status = js
        if i == len(input_string) - 1 and jump_dict.get('accepted'):
            return True

    return jump_table[cur_status].get('accepted') is not None

總結

到此已經完成了一個簡單的正則表示式引擎的所有過程

正則表示式 -> NFA -> DFA -> DFA最小化 -> 進行匹