字首樹實現過濾敏感詞

阿新 • • 發佈：2022-03-18

原文：

https://blog.csdn.net/weixin_42700635/article/details/105637764

import org.apache.commons.lang3.CharUtils;
import org.apache.commons.lang3.StringUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.stereotype.Component;

import javax.annotation.PostConstruct;
import 
 java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Map;

@Component
public class SensitiveFilter {

    private static final Logger logger = LoggerFactory.getLogger(SensitiveFilter.class);
     
//替換符
    private static String REPLACEMENT = "***";

    //根節點
    private TrieNode root = new TrieNode();

    @PostConstruct
    public void init() {

        try (InputStream is = this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt");
             BufferedReader reader=new BufferedReader(new 
 InputStreamReader(is));
        ) {
            String keyword;
            while ((keyword=reader.readLine())!=null){
                //新增到字首樹
                this.addKeyword(keyword);
            }
        } catch (IOException e) {
            logger.error("載入敏感詞檔案失敗："+e.getMessage());
        }

    }


    //將敏感詞新增到字首樹當中
    private void addKeyword(String keyword){
        TrieNode tempNode=root;
        for (int i=0;i<keyword.length();i++){
            char c=keyword.charAt(i);
            TrieNode subNode=tempNode.getSubNode(c);
            if (subNode==null){
                //初始化子節點
                subNode=new TrieNode();
                tempNode.addSubNode(c,subNode);
            }

            //指向子節點，進入下一輪迴圈
            tempNode=subNode;

            //設定結束標識
            if (i==keyword.length()-1){
                tempNode.setKeywordEnd(true);
            }
        }
    }


    /**
     * 過濾敏感詞
     * @param text 待過濾文字
     * @return 過濾後的文字
     */
    public String filter(String text){
        if (StringUtils.isBlank(text)){
            return null;
        }

        //指標1
        TrieNode tempNode=root;

        //指標2
        int begin=0;
        //指標3
        int position=0;
        //結果
        StringBuilder sb=new StringBuilder();

        while (position<text.length()){
            char c=text.charAt(position);

            //跳過符號
            if (isSymbol(c)){
                //若指標1處於根節點，將此符號計入結果，讓指標2向下走一步
                if (tempNode==root){
                    sb.append(c);
                    begin++;
                }
                //無論符號在開頭或中間，指標3都向下走一步
                position++;
                continue;

            }

            //檢查下級節點
            tempNode=tempNode.getSubNode(c);
            if (tempNode==null){
                //以begin開頭的字元不是敏感詞
                sb.append(text.charAt(begin));
                //進入下一個位置
                position=++begin;
                //重新指向根節點
                tempNode=root;
            }else if (tempNode.isKeywordEnd()){
                //發現敏感詞，將begin-position字串替換掉
                sb.append(REPLACEMENT);
                begin=++position;
                //重新指向根節點
                tempNode=root;
            }else {
                //檢查下一個字元
                position++;
            }
        }
        //將最後一批字元計入結果
        sb.append(text.substring(begin));
        return sb.toString();
    }


    //判斷是否為符號
    private boolean isSymbol(Character c){
        // 0x2E80-0x9FFF是東亞文字範圍
        return !CharUtils.isAsciiAlphanumeric(c) && (c<0x2E80||c>0x9FFF);
    }

    //字首樹
    private class TrieNode {
        //關鍵詞結束標識
        private boolean isKeywordEnd = false;

        //子節點(key是下級字元，value是下級節點）
        private Map<Character, TrieNode> subNodes = new HashMap<>();

        public boolean isKeywordEnd() {
            return isKeywordEnd;
        }

        public void setKeywordEnd(boolean keywordEnd) {
            isKeywordEnd = keywordEnd;
        }

        //新增子節點方法
        public void addSubNode(Character key, TrieNode value) {
            subNodes.put(key, value);
        }

        //獲取子節點方法
        public TrieNode getSubNode(Character key) {
            return subNodes.get(key);
        }
    }

}

字首樹實現過濾敏感詞

原文： https://blog.csdn.net/weixin_42700635/article/details/105637764 import org.apache.commons.lang3.CharUtils;

python用類實現文章敏感詞的過濾方法示例

過濾一遍並將敏感詞替換之後剩餘字串中新組成了敏感詞語,這種情況就要用遞迴來解決，直到過濾替換之後的結果和過濾之前一樣時才算結束

vue實現檢測敏感詞過濾元件的多種思路

寫在前面在做商戶端敏感詞檢測的過程中，發現了一些問題，特在此總結。本文的行文思路是編寫敏感詞檢測程式碼，前兩個思路未採用元件化的開發思想，後三個思路根據需求變更，採用元件化的思想和mixi

PHP實現的敏感詞過濾方法

PHP實現的敏感詞過濾方法,以下是一份過濾敏感詞的編碼。有需要可以參考參考。

DFA在C#中的實現：過濾敏感詞

DFA即Deterministic Finite Automaton，也就是確定有窮自動機，它是是通過event和當前的state得到下一個state，即event+state=nextstate。在實現敏感詞過濾的演算法中，我們必須要減少運算，而DFA在DFA演算法中幾

AC自動機：如何用多模式串匹配實現敏感詞過濾功能？

我們前面幾節講了好幾種字串匹配演算法，有 BF 演算法、RK 演算法、BM 演算法、KMP 演算法，還有 Trie 樹。前面四種演算法都是單模式串匹配演算法，只有 Trie 樹是多模式串匹配演算法。

asp.net 實現敏感詞全域性過濾

1、Global.asax 檔案中寫一下程式碼 void Application_BeginRequest(object sender, EventArgs e)

Python實現敏感詞過濾的4種方法

在我們生活中的一些場合經常會有一些不該出現的敏感詞，我們通常會使用*去遮蔽它，例如：尼瑪 -> **，一些罵人的敏感詞和一些政治敏感詞都不應該出現在一些公共場合中，這個時候我們就需要一定的手段去遮蔽這些敏

Js利用正則實現敏感詞過濾

[JS程式碼] var msg = \"CNM,SB,NMSL,MB,FUCK,hhhhh\"; console.log(filterWords(msg, \"*\")); //結果為*,*,*,*,*,hhhhh

通過Jackson實現敏感詞過濾和型別轉換的功能

背景目前正在做老專案遷移重構工作（Clojure轉Java），因歷史原因專案中給到端上的Json資料中和（id/user_id/order_id）等相關的id欄位需要以string型別給到端上。

基於python實現檢索標記敏感詞並輸出

　一些帶有過度宣傳的詞，在淘寶、京東對商品的宣傳有一定的限制，這些最佳，最大、盜版、水貨等詞語都不能用於產品的宣傳，可以使用程式檢測敏感詞，以下既是具體程式碼。

代理模式使用過濾器實現對敏感詞彙的過濾

目錄一.代理模式概念:二.實現方式三.分析四.實現五.測試六.總結一.代理模式概念:

LeetCode208. 實現 Trie (字首樹)

方法一可以直接用一個數組trie存放所有插入的字串，然後insert和startsWith操作只需要遍歷trie陣列，逐個判斷即可。

【敏感詞檢測】用DFA構建字典樹完成敏感詞檢測任務

任務概述敏感詞檢測是各類平臺對使用者釋出內容（UGC）進行稽核的必做任務。

leetcode208 實現Trie(字首樹）（Medium）

題目來源：leetcode208 實現Trie(字首樹）題目描述：實現一個 Trie (字首樹)，包含 insert, search, 和 startsWith 這三個操作。

字首樹及C++實現

文章　　目錄　　　　1、什麼是Trie樹　　　　2、樹的構建與查詢　　　　3、Trie樹的應用

208. 實現 Trie (字首樹)

208. 實現 Trie (字首樹) 題目描述實現一個 Trie (字首樹)，包含insert,search, 和startsWith這三個操作。

實現 Trie (字首樹)

題目：實現一個 Trie (字首樹)，包含insert,search, 和startsWith這三個操作。 Trie trie = new Trie();

ThinkPHP5 如何介入阿里雲反文字垃圾敏感詞過濾【附原始碼】

很多時候我們給與客戶端在釋出內容的時候，就很擔心被客戶輸入惡意敏感詞等資訊，如若不慎還可能網站被封等；為了減少後臺人工稽核的成本，我們接入阿里雲反文字垃圾。

記錄一次敏感詞過濾演算法DFA的應用案例

技術標籤：Java基礎DFA關鍵字過濾目錄 0、 DFA是什麼？ 1、為什麼要用DFA 2、DFA工具類實現

字首樹實現過濾敏感詞

相關推薦