【Java】聊天過濾 DFA演算法的Java實現

阿新 • • 發佈：2019-02-01

開心就好

Trie樹的原理不講了，直接上程式碼

ChatFilter.java 是核心的過濾器，他從NoneWantToSee.list檔案中讀敏感詞，這個檔案中一個敏感詞放一行，這個檔案放在src目錄下就行。

過濾器實現資料載入和提供過濾服務，過濾服務是把敏感詞替換成**，可以自定義行為。

和一些例子不同，我在程式碼中處理了部分重疊狀態的識別，比如“絲襪” “絲襪網” 都作為敏感詞可以被識別出來並處理掉。

另外有一點，構造使用的Set是TreeSet，其中的元素長度從大到小排列，這樣在構造sensitiveMap的時候，重疊匹配處理起來方便一些。

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.Comparator;
import java.util.HashMap;
import java.util.TreeSet;

/**
 * 聊天過濾器，DFA演算法
 * @author yuantao
 *
 */
public class ChatFilter {
    private static HashMap<String, ChatFilterTreeNode> sensitiveMap = new HashMap<>();
    
    static {
        File file = new File(ChatFilter.class.getResource("/").getPath()+"NoneWantToSee.list");
        TreeSet<String> set = new TreeSet<>(new Comparator<String>() {
            @Override
            public int compare(String o1, String o2) {
                // TODO Auto-generated method stub
                return o1.length() > o2.length() ? -1 : 1;
            }
        });
        try(BufferedReader bReader = new BufferedReader(new InputStreamReader(new FileInputStream(file)));) {
            String line = null;
            
            while ((line = bReader.readLine()) != null) {
                set.add(line);
            }
            initFilter(set);
        } catch (Exception e) {
            // TODO: handle exception
            e.printStackTrace();
        }
    }
    
    /**
     * 只是用來載入靜態程式碼的
     */
    public static void initChatFilter(){}
    /**
     * 構造關鍵詞查詢器
     * @param keySet 按長度倒敘排列的TreeSet
     */
    private static void initFilter(TreeSet<String> keySet) { 
        for (String oneKey : keySet) {
            HashMap<String, ChatFilterTreeNode> iterMap = sensitiveMap;
            for (int index = 0; index < oneKey.length(); ++index) {
                char keyChar = oneKey.charAt(index);
                ChatFilterTreeNode node = iterMap.get(String.valueOf(keyChar)); // 按一個字元查詢 
                if (node != null) { //如果存在嘗試下探
                    if (index < (oneKey.length()-1)) {
                        node.setEnd(false);
                        node.setOverLapEnd(false);
                    } else { //部分匹配
                        if (!node.getNextNodeMap().isEmpty()) {
                            node.setEnd(false);
                            node.setOverLapEnd(true);
                        }
                    }
                    iterMap = node.getNextNodeMap();
                } else {
                    //不存在就構造
                    ChatFilterTreeNode nextNewNode = new ChatFilterTreeNode();
                    if (index < (oneKey.length()-1)) {
                        nextNewNode.setEnd(false);
                    }
                    iterMap.put(String.valueOf(keyChar), nextNewNode);
                    iterMap = nextNewNode.getNextNodeMap();
                }
            }
        }
    }
    
    
    public String filte(String targetStr) {
        HashMap<String, ChatFilterTreeNode> iterMap = sensitiveMap;
        StringBuilder sb = new StringBuilder();
        boolean needProcessOverlap = false;
        int sensitivityIndex = 0; // 標記敏感詞起始位置
        int normalStartIndex = 0; // 標記正常詞起始位置
        int normalEndIndex = 0; // 標記正常詞結束位置 
        for (int index = 0; index < targetStr.length(); index++) {
            char inputChar = targetStr.charAt(index);
            ChatFilterTreeNode node = iterMap.get(String.valueOf(inputChar));
            if (node != null) {
                iterMap = node.getNextNodeMap();
                if (node.isEnd()) {
                    //匹配上了先替換敏感詞再調整索引值
                    if (normalEndIndex > normalStartIndex) { //先擷取前面的非敏感詞部分
                        sb.append(targetStr.substring(normalStartIndex, normalEndIndex));
                    }
                    sb.append("**");
                    
                    normalStartIndex = index + 1;
                    sensitivityIndex = index + 1;
                    normalEndIndex = index + 1;
                    iterMap = sensitiveMap;
                    needProcessOverlap = false;
                    
                } else if (node.isOverLapEnd()) {
                    needProcessOverlap = true;
                }
                
            } else { 
                if (needProcessOverlap) { //處理重疊匹配的狀態
                    if (normalEndIndex > normalStartIndex) {
                        sb.append(targetStr.substring(normalStartIndex, normalEndIndex));
                    }
                    sb.append("**");
                    needProcessOverlap = false;
                    normalStartIndex = index;
                    sensitivityIndex = index;
                    normalEndIndex = index;
                }
                //這裡要嘗試去匹配一下, 如果匹配了一半退出了，需要重新去匹配
                iterMap = sensitiveMap;
                node = iterMap.get(String.valueOf(inputChar));
                if (node != null) {
                    normalEndIndex = index;
                    sensitivityIndex = index;
                    iterMap = node.getNextNodeMap();
                    if (node.isEnd()) {
                        //匹配上了先替換敏感詞再調整索引值
                        if (normalEndIndex > normalStartIndex) { //先擷取前面的非敏感詞部分
                            sb.append(targetStr.substring(normalStartIndex, normalEndIndex));
                        }
                        sb.append("**");
                        
                        normalStartIndex = index + 1;
                        sensitivityIndex = index + 1;
                        normalEndIndex = index + 1;

                        iterMap = sensitiveMap;
                    }
                    
                } else {
                    //1.正常start=正常end=敏感start，讓正常end=index，
                    if (normalEndIndex == normalStartIndex 
                            && normalEndIndex == sensitivityIndex) {
                        iterMap = sensitiveMap;
                        sensitivityIndex = normalStartIndex;
                    }
                    normalEndIndex = index + 1;
                }
                
            }
        }
        if (needProcessOverlap) {
            if (normalStartIndex < normalEndIndex) {
                sb.append(targetStr.substring(normalStartIndex, normalEndIndex));
            }
            sb.append("**");
            normalStartIndex = targetStr.length();
            sensitivityIndex = targetStr.length();
            normalEndIndex = targetStr.length();
        }
        if (normalStartIndex < targetStr.length()) {
            sb.append(targetStr.substring(normalStartIndex));
        }

        return sb.toString();
    }
}

資料結構 ChatFilterTreeNode.java 兩個標記，一個(isEnd)是標記葉子節點，一個(isOverLapEnd)是標記被覆蓋的葉子節點。

import java.util.HashMap;
/**
 * 聊天過濾器查詢樹的節點。
 * 在查詢樹中，每一個Key都必須對應一個節點
 * 最後一個Key對應的節點中isEnd==true，nextNodeMap.size==0
 * @author yuantao
 *
 */
public class ChatFilterTreeNode {
        private boolean isEnd = true;
        private HashMap<String, ChatFilterTreeNode> nextNodeMap = null;
        private boolean isOverLapEnd = false;
        /**
         * Lazy Getter and Setter
         * @return
         */
        
        public HashMap<String, ChatFilterTreeNode> getNextNodeMap() {
            if (nextNodeMap==null) {
                nextNodeMap = new HashMap<String, ChatFilterTreeNode>();
            }
            return nextNodeMap;
        }
        
        public void setNextNodeMap(HashMap<String, ChatFilterTreeNode> nextNodeMap) {
            this.nextNodeMap = nextNodeMap;
        }
        
        public boolean isEnd() {
            return isEnd;
        }
        
        public void setEnd(boolean isEnd) {
            this.isEnd = isEnd;
        }

        public boolean isOverLapEnd() {
            return isOverLapEnd;
        }

        public void setOverLapEnd(boolean isOverLapEnd) {
            this.isOverLapEnd = isOverLapEnd;
        }
}

用法很簡單

ChatFilter filter =new ChatFilter();

String testStr = "啊日本人絲襪敏網啊日本人敏網絲襪網我日本絲襪日本";

System.out.println(testStr);

String result =filter.filte(testStr);

System.out.println(result);

敏感詞是[絲襪, 絲襪網]

啊日本人絲襪敏網啊日本人敏網絲襪網我日本絲襪日本

啊日本人**敏網啊日本人敏網**我日本**日本

【Java】聊天過濾 DFA演算法的Java實現

開心就好 Trie樹的原理不講了，直接上程式碼 ChatFilter.java 是核心的過濾器，他從NoneWantToSee.list檔案中讀敏感詞，這個檔案中一個敏感詞放一行，這個檔案放在src目錄下就行。過濾器實現資料載入和提供過濾服務，過濾服務是把敏感詞替換成**

【乾貨】10道經典的java演算法之面試題

對於演算法題，大家都很熟悉，無論在企業中還是在面試的時候，演算法依然是考研我們的一個標準. 根據實際情況，大家可能會認為公司裡幾乎用不到演算法。我覺得這種說法是片面的。我們在熟練寫一段程式碼的時候，如果對其進行用優雅的方式實現出來，這就是演算法。個人對演算法的理解：演算法只是解決問題

【JAVA】常用加解密演算法總結及JAVA實現【BASE64,MD5,SHA,DES,3DES,AES,RSA】

BASE64 這其實是一種編解碼方法，但是隻要我們能夠將原文變成肉眼不可識別的內容，其實就是一種加密的方法。 BASE64 的編碼都是按字串長度，以每 3 個 8 bit 的字元為一組，然後針對每組，首先獲取每個字元的 ASCII 編碼，然後將 ASCII 編碼轉換成 8

【exe4j】如何利用exe4j把java桌面程序生成exe文件

第三方類 arr article 位置程序文件相同 ips uid 前言：我們都知道Java可以將二進制程序打包成可執行jar文件，雙擊這個jar和雙擊exe效果是一樣一樣的，但感覺還是不同。其實將java程序打包成exe也需要這個可執行jar文件。準備：

【溫故知新】從零開始搭建 java web項目(二)

添加以及 pro tps ren 處理方法獲取 mapping 映射系列一介紹了新建一個 web 項目的基本步驟，系列二就準備介紹下基本的 jsp 和 servlet 使用。（關於jsp的編譯指令、動作指令、內置對象不在本文討論範圍之內） 1. 首先，在 pom.

【轉】為什麽說 Java 程序員必須掌握 Spring Boot ？

netbeans 好想模式大學 evel 完成客戶 star 打破 Spring Boot 2.0 的推出又激起了一陣學習 Spring Boot 熱，那麽， Spring Boot 誕生的背景是什麽？Spring 企業又是基於什麽樣的考慮創建 Spring Boot

【Java】使用IDEA遠端除錯Java程式碼【Java】Maven Tomcat外掛使用

概述　　服務端程式執行在一臺遠端伺服器上，我們可以在本地服務端的程式碼（前提是本地的程式碼必須和遠端伺服器執行的程式碼一致）中設定斷點，每當有請求到遠端伺服器時時能夠在本地知道遠端服務端的此時的內部狀態測試專案　　建立方式參考：【Java】Maven Tomcat外掛使用　　專案中新增了一個測

【LeetCode】14. Longest Common Prefix - Java實現

文章目錄 1. 題目描述： 2. 思路分析： 3. Java程式碼： 1. 題目描述： Write a function to find the longest common prefix string amongst an arr

【LeetCode】13. Roman to Integer - Java實現

文章目錄 1. 題目描述： 2. 思路分析： 3. Java程式碼： 1. 題目描述： Roman numerals are represented by seven different symbols: I, V, X, L, C

【LeetCode】12. Integer to Roman - Java實現

文章目錄 1. 題目描述： 2. 思路分析： 3. Java程式碼： 1. 題目描述： Roman numerals are represented by seven different symbols: I, V, X, L, C

【LeetCode】10. Regular Expression Matching - Java實現

文章目錄 1. 題目描述： 2. 思路分析： 3. Java程式碼： 1. 題目描述： Given an input string (s) and a pattern (p), implement regular expressio

【ACM】HDU 1008 Elevator(for java)

到達每一個站點才會停，而不是到達每一個樓層都停！ import java.util.Arrays; import java.util.Scanner; public class Main { static int upFloor = 6; static int downFlo

【LeetCode】32. Longest Valid Parentheses - Java實現

文章目錄 1. 題目描述： 2. 思路分析： 3. Java程式碼： 1. 題目描述： Given a string containing just the characters ‘(’ and ‘)’, find the leng

【LeetCode】29. Divide Two Integers - Java實現

文章目錄 1. 題目描述： 2. 思路分析： 3. Java程式碼： 1. 題目描述： Given two integers dividend and divisor, divide two integers without usi

【Java】阿里雲簡訊傳送功能實現

前言在移動端，我們除了使用賬號密碼、第三方社交平臺賬號(例如：微信、QQ、微博等)這幾種登入方式以外，也會通過手機簡訊驗證碼的方式來做登入。博主最近正在做移動端的手機簡訊驗證登入。原本為了簡單起見，選用的是某個不知名科技公司的簡訊服務，但是收費貴，服務也不太穩定等一系列問題的出現

【筆記】HDFS簡單API程式碼(Java)的使用

一、構造客戶端 //1. 客戶端載入配置檔案 Configuration conf= new Configuration(); //2.指定配置，設定副本數、指定塊大小等等 conf.set("dfs.replication", "1"); co

【Linux】初入Ubuntu的Java開發者安裝軟體手記

前言在幾個月前終於從藍屏系統轉戰Ubuntu，前前後後也裝了很多次的Ubuntu，以及相關的開發軟體，為節省以後再次重灌系統、軟體所花費的查資料的時間，特寫一文記錄下我常用的軟體的安裝。 Ubuntu安裝初入系統，第一步肯定是安裝Ubuntu的啦，我採用的是

【轉載】最近面了不少java開發，據此來說下我的感受：哪怕事先只准備1小時，成功概率也能大大提升

原文連結：https://www.cnblogs.com/JavaArchitect/p/9032323.html 本人最近幾年一直在做java後端方面的技術面試官，而在最近兩週，又密集了面試了一些java初級和高階開發的候選人，在面試過程中，我自認為比較慎重，遇到問題回答不好的候選人，我總會再

[Java] 【分享】微信APP支付Java版的一個小demo

前一段時間公司搞微信的APP支付，看過微信的官方文件之後只能感嘆自己果然還是太嫩，只有思想，連個demo都沒有，上網到處查詢資料之後找了一個博主分享的看著相對靠譜的下載下來配置好了，改了一些回撥方面的錯誤，終於能正常執行，分享一下，給需要的人！個人覺得核心部分的程式碼：簽

【Java】Iterator底層原理，自己實現Iterator

package test; import java.util.Iterator; public class MyIterator implements java.lang.Iterable<String> { private String[] eleme

【Java】聊天過濾 DFA演算法的Java實現

相關推薦