Java過濾敏感詞

阿新 • • 發佈：2019-02-06

課程設計做了個部落格系統,為了對評論進行敏感詞過濾,所以去看了下DFA

在Java中實現敏感詞過濾的關鍵就是DFA演算法的實現。首先我們對上圖進行剖析。在這過程中我們認為下面這種結構會更加清晰明瞭。

同時這裡沒有狀態轉換，沒有動作，有的只是Query（查詢）。我們可以認為，通過S query U、V，通過U query V、P，通過V query U P。通過這樣的轉變我們可以將狀態的轉換轉變為使用Java集合的查詢。

誠然，加入在我們的敏感詞庫中存在如下幾個敏感詞：日本人、日本鬼子、毛.澤.東。那麼我需要構建成一個什麼樣的結構呢？

首先：query 日 ---> {本}、query 本 --->{人、鬼子}、query 人 --->{null}、query 鬼 ---> {子}。形如下結構：

下面我們在對這圖進行擴充套件：

這樣我們就將我們的敏感詞庫構建成了一個類似與一顆一顆的樹，這樣我們判斷一個詞是否為敏感詞時就大大減少了檢索的匹配範圍。比如我們要判斷日本人，根據第一個字我們就可以確認需要檢索的是那棵樹，然後再在這棵樹中進行檢索。

但是如何來判斷一個敏感詞已經結束了呢？利用標識位來判斷。

所以對於這個關鍵是如何來構建一棵棵這樣的敏感詞樹。下面我已Java中的HashMap為例來實現DFA演算法。具體過程如下：

日本人，日本鬼子為例

1、在hashMap中查詢“日”看其是否在hashMap中存在，如果不存在，則證明已“日”開頭的敏感詞還不存在，則我們直接構建這樣的一棵樹。跳至3。

2、如果在hashMap中查詢到了，表明存在以“日”開頭的敏感詞，設定hashMap = hashMap.get("日")，跳至1，依次匹配“本”、“人”。

3、判斷該字是否為該詞中的最後一個字。若是表示敏感詞結束，設定標誌位isEnd = 1，否則設定標誌位isEnd = 0；

首先需要建立一個敏感詞庫:

/**
* 讀取敏感詞庫，將敏感詞放入HashSet中，構建一個DFA演算法模型：<br>
* 中 = {
* isEnd = 0
* 國 = {<br>
* isEnd = 1
* 人 = {isEnd = 0
* 民 = {isEnd = 1}
* }
* 男 = {
* isEnd = 0
* 人 = {
* isEnd = 1
* }
* }
* }
* }
* 五 = {
* isEnd = 0
* 星 = {
* isEnd = 0
* 紅 = {
* isEnd = 0
* 旗 = {
* isEnd = 1
* }
* }
* }
* }
*/

/**
 * 建立敏感詞彙樹
* @param keyWordSet
*/
public void createWords(Set<String> keyWordSet) {
    sensitiveWordMap = new HashMap(keyWordSet.size());
    Map nowMap = null;
    Map<String,String> wordMap = null;

    String key = null;

    for (String word : keyWordSet) {
        nowMap = sensitiveWordMap;
        key = word;
        for (int index=0 ; index<key.length() ; index++) {

            char keyChar = key.charAt(index);
            Object newWordMap = nowMap.get(keyChar);

            if (newWordMap!=null) {
                nowMap = (Map) newWordMap;

            } else {
                wordMap = new HashMap<>();
                wordMap.put("isEnd","0");
                nowMap.put(keyChar,wordMap);
                nowMap = wordMap;
            }

            if (index == key.length()-1) {
                nowMap.put("isEnd","1");
            }
        }
    }
}

敏感詞庫我們一個簡單的方法給實現了，那麼如何實現檢索呢？檢索過程無非就是hashMap的get實現，找到就證明該詞為敏感詞，否則不為敏感詞。過程如下：假如我們匹配“中國人民萬歲”。

1、第一個字“中”，我們在hashMap中可以找到。得到一個新的map = hashMap.get("")。

2、如果map == null，則不是敏感詞。否則跳至3

3、獲取map中的isEnd，通過isEnd是否等於1來判斷該詞是否為最後一個。如果isEnd == 1表示該詞為敏感詞，否則跳至1。

通過這個步驟我們可以判斷“中國人民”為敏感詞，但是如果我們輸入“中國女人”則不是敏感詞了。

/**
 * 獲取敏感詞彙集
* @param txt
* @param matchType
* @return
*/
public Set<String> getSensitiveWord(String txt,int matchType) {
    Set<String> sensitiveWordList = new HashSet<>();

    for (int index=0;index<txt.length();index++) {
        int length = checkSensitiveWord(txt,index,matchType);
        if (length>0) {
            sensitiveWordList.add(txt.substring(index,index+length));
            index = index + length - 1;
        }
    }

    return sensitiveWordList;
}

/**
 * 匹配 判斷敏感詞彙
* @param txt
* @param beginIndex
* @param matchType
* @return
*/
public int checkSensitiveWord(String txt,int beginIndex,int matchType) {
    boolean flag = false;
    int wordFlag = 0;
    char word = 0;
    Map nowMap = sensitiveWordMap;

    for (int index=beginIndex ; index<txt.length() ; index++) {
        word = txt.charAt(index);
        nowMap = (Map) nowMap.get(word);
        if (nowMap!=null) {
            wordFlag++;
            if ("1".equals(nowMap.get("isEnd"))) {
                flag = true;
                if (FilterUtil.minMatchTYpe == matchType) {
                    break;//最小匹配直接跳出
}
            }
        }  else {     //不存在，直接返回
break;
        }
    }

    System.out.println(wordFlag+" "+flag);
    if (wordFlag<2 || !flag) {
        return 0;
    }

    return wordFlag;
}

需要一個詞庫:點選下載詞庫，提取碼：tk3g

Java過濾敏感詞

課程設計做了個部落格系統,為了對評論進行敏感詞過濾,所以去看了下DFA

Java過濾敏感詞

Java Web敏感詞過濾演算法

java DFA 敏感詞過濾

【python 走進NLP】兩種高效過濾敏感詞演算法--DFA演算法和AC自動機演算法

php 去除常見中文停用詞(過濾敏感詞)

Java過濾敏感詞彙演算法(字典樹)

PHP的一個過濾敏感詞或髒話的方法

PHP 擴充套件 trie-tree, swoole過濾敏感詞方案

敏感詞庫快速新增到mysql資料庫，並在頁面使用方法過濾敏感詞

【過濾敏感詞】正則表示式

DFA確定性有限狀態機過濾敏感詞

Python正則表示式過濾敏感詞

javaEE之---------過濾敏感詞（filter）

ASP 通過正則表示式過濾敏感詞

Java 敏感詞過濾，Java 敏感詞替換，Java 敏感詞工具類

java HashMap實現中文分詞器應用：敏感詞過濾實現

Java實現DFA演算法對敏感詞、廣告詞過濾功能

DFA演算法實現Java敏感詞過濾

JAVA 敏感詞過濾

java敏感詞過濾(詞庫+演算法)高效率驗證

Java過濾敏感詞

課程設計做了個部落格系統,為了對評論進行敏感詞過濾,所以去看了下DFA

相關推薦