【python 走進NLP】英文敏感詞過濾演算法改進版本

阿新 • • 發佈：2018-12-18

中文DFA演算法過濾敏感詞改進版本

# 中文DFA演算法過濾敏感詞改進版本
class Chinese_DFAFilter():
    def __init__(self):
        self.keyword_chains = {}
        self.delimit = '\x00'

    def add(self, keyword):
        keyword = keyword.lower()
        chars = keyword.strip()
        if not chars:
            return
        level = self.keyword_chains
        for i in range(len(chars)):
            if chars[i] in level:
                level = level[chars[i]]
            else:
                if not isinstance(level, dict):
                    break
                for j in range(i, len(chars)):
                    level[chars[j]] = {}
                    last_level, last_char = level, chars[j]
                    level = level[chars[j]]
                last_level[last_char] = {self.delimit: 0}
                break
        if i == len(chars) - 1:
            level[self.delimit] = 0

    # def parse(self, path):
    #     with open(path,encoding='utf-8') as f:
    #         for keyword in f:
    #             # print(keyword)
    #             self.add(str(keyword).strip())

    # 載入敏感詞函式
    def parse(self, data):
        for i in data['lable']:
            self.add(str(i).strip())

    def filter(self, message, repl="*"):
        message = message.lower()
        ret = []
        start = 0
        hit_word=[]
        while start < len(message):
            level = self.keyword_chains
            step_ins = 0
            for char in message[start:]:
                if char in level:
                    step_ins += 1
                    if self.delimit not in level[char]:
                        level = level[char]
                    else:
                        # print(step_ins)
                        ret.append(repl * step_ins)
                        # print("%s--------step_ins" %step_ins)
                        start += step_ins - 1
                        # print("%s--------start" %start)
                        kk=message[start-step_ins+1:start+1]
                        hit_word.append(kk)
                        break
                else:
                    ret.append(message[start])
                    # print(message[start])
                    break
            else:
                ret.append(message[start])
            start += 1

        return hit_word

英文DFA演算法過濾敏感詞改進版本

# 英文DFA演算法
class English_DFAFilter():
    def __init__(self):
        self.keyword_chains = {}
        self.delimit = '\x00'

    def find_english_word_last_index(self,message):
        """

        :param sentence: 英文句子
        :return: 返回英文句子的每個單詞最後的字母的索引
        """
        last_index_list = []
        for i, j in enumerate(message):
            # print(i, j)
            if j == ' ':
                last_index_list.append(i - 1)
        last_index_list.append(len(message) - 1)
        print(last_index_list)
        return last_index_list

    def add(self, keyword):
        keyword = keyword.lower()
        chars = keyword.strip()
        if not chars:
            return
        level = self.keyword_chains
        for i in range(len(chars)):
            if chars[i] in level:
                level = level[chars[i]]
            else:
                if not isinstance(level, dict):
                    break
                for j in range(i, len(chars)):
                    level[chars[j]] = {}
                    last_level, last_char = level, chars[j]
                    level = level[chars[j]]
                last_level[last_char] = {self.delimit: 0}
                break
        if i == len(chars) - 1:
            level[self.delimit] = 0

    # def parse2(self, path):
    #     with open(path,encoding='utf-8') as f:
    #         for keyword in f:
    #             # print(keyword)
    #             self.add(str(keyword).strip())

    # 載入敏感詞函式
    def parse(self, data):
        for i in data['lable']:
            self.add(str(i).strip())

    def filter(self, message, repl="*"):
        message = message.lower()
        ret = []
        start = 0
        hit_word=[]
        while start < len(message):
            level = self.keyword_chains

            step_ins = 0
            for char in message[start:]:
                if char in level:
                    step_ins += 1
                    if self.delimit not in level[char]:
                        level = level[char]
                    else:
                        # print(step_ins)
                        ret.append(repl * step_ins)
                        # print("%s--------step_ins" %step_ins)
                        start += step_ins - 1
                        # print("%s--------start" %start)

                        # 判斷找到是否是每個單詞的最後一個字母的索引

                        if start  in self.find_english_word_last_index(message):
                            kk=message[start-step_ins+1:start+1]
                            hit_word.append(kk)

                        break
                else:
                    ret.append(message[start])
                    # print(message[start])
                    break
            else:
                ret.append(message[start])
            start += 1

        return hit_word

【python 走進NLP】英文敏感詞過濾演算法改進版本

中文DFA演算法過濾敏感詞改進版本 # 中文DFA演算法過濾敏感詞改進版本 class Chinese_DFAFilter(): def __init__(self): self.keyword_chains = {} s

【python 走進NLP】兩種高效過濾敏感詞演算法--DFA演算法和AC自動機演算法

一道bat面試題：快速替換10億條標題中的5萬個敏感詞，有哪些解決思路？有十億個標題，存在一個檔案中，一行一個標題。有5萬個敏感詞，存在另一個檔案。寫一個程式過濾掉所有標題中的所有敏感詞，儲存到另一個檔案中。 1、DFA過濾敏感詞演算法在實現文字過濾的演算法中，DFA是

【python 走進NLP】利用jieba技術中文分詞並寫入txt

簡單介紹：近年來，隨著NLP自然語言處理技術的日益成熟，開源實現的分詞工具也越來越多，比如NLTK：其在英文分詞較為成熟，分詞效果較好，在處理中文分詞方面則顯得力不足；在處理中文分詞時，Jieba這一工具普遍為大家所接受，很多企業也都是利用這一工具來處理涉及中

【python 走進NLP】pyhanlp 自然語言處理包

安裝： pip install pyhanlp 若安裝失敗：從這裡下載JPype allows full access to Java class libraries. https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype 開

【python 走進NLP】利用SnowNLP 訓練自己的情感分析庫

介紹 SnowNLP是一個python寫的類庫，可以方便的處理中文文字內容。可以做很多事情，如：中文分詞（Character-Based Generative Model）詞性標註（TnT 3-gram 隱馬）情感分析（現在訓練資料主要是買賣東西時的評價，所以對其他的一些可能效

【python 走進NLP】標籤別名語義相似度匹配演算法

標籤別名語義相似度匹配演算法： # -*- encoding=utf-8 -*- import pandas as pd import numpy as np import time time1

【python資料處理】jieba分詞

jieba（結巴）是一個強大的分詞庫，完美支援中文分詞三種分詞模式 import jieba s = u'我想和女朋友一起去北京故宮博物院參觀和閒逛。' cut = jieba.cut(s) #三種模式 print( '【Output】精確模式：') prin

敏感詞過濾演算法：字首樹演算法

背景平時我們在逛貼吧、牛客網的時候，我們經常可以看到一些形如 “***”的符號，通過上下文，我們也可以很容易猜到這些詞原來是罵人的話，只是被系統和諧了。那麼這是如何實現的呢？作為普通人，我們最先想到的一種辦法就是把所有敏感串存入一個列表中，然後使用者每發一條內容後臺就把該內容與敏感串列表

C#敏感詞過濾演算法實現

1.DFA演算法簡介DFA全稱為：Deterministic Finite Automaton,即確定有窮自動機。其特徵為：有一個有限狀態集合和一些從一個狀態通向另一個狀態的邊，每條邊上標記有一個符號，其中一個狀態是初態，某些狀態是終態。但不同於不確定的有限自動機，DFA中不

DFA敏感詞過濾演算法

運用DFA演算法加密。首先我先對敏感詞庫初始化，若我的敏感詞庫為冰毒白粉大麻大壞蛋初始化之後得到的是下面這樣。：{冰={毒={isEnd=1}, isEnd=0}, 白={粉={isEnd=1}, isEnd=0}, 大={麻={isEnd=1}, isEnd=0, 壞={蛋

Java Web敏感詞過濾演算法

1.DFA演算法DFA演算法的原理可以參考這裡，簡單來說就是通過Map構造出一顆敏感詞樹，樹的每一條由根節點到葉子節點的路徑構成一個敏感詞，例如下圖：程式碼簡單實現如下：public class TextFilterUtil { //日誌 private stat

高效能的敏感詞過濾演算法可以忽略大小寫、全半形、簡繁體、特殊符號干擾 (二)

/// <summary> /// 敏感詞過濾已忽略大小寫全半形簡繁體差異特殊符號 html標籤干擾 /// </summary> public static class FilterKeyWords { priv

【python 字母索引】找到英文句子裡面每個單詞最後一個字母的索引

# -*- coding:utf-8 -*- sentence="wo ai ni zhong guo" def find_english_word_last_index(sentence): """ :param sentence: 英文句子 :ret

【python gensim使用】word2vec詞向量處理中文語料

word2vec介紹 word2vec官網：https://code.google.com/p/word2vec/ word2vec是google的一個開源工具，能夠根據輸入的詞的集合計算出詞與詞之間的距離。它將term轉換成向量形式，可以把對文字內容的處理簡化為向量空間中的向量運算，計算出向

【python 字母索引】找到英文句子裡面每個單詞最後一個的索引

# -*- coding:utf-8 -*- sentence="shi yuan li mei" def find_english_word_last_index(sentence):

【面試被虐】說說遊戲中的敏感詞過濾是如何實現的？

版權宣告：本文為苦逼的碼農原創。未經同意禁止任何形式轉載，特別是那些複製貼上到別的平臺的，否則，必定追究。歡迎大家多多轉發，謝謝。小秋今天去面試了，面試官問了一個與敏感詞過濾演算法相關的問題，然而小秋對敏感詞過濾演算法一點也沒聽說過。於是，有了下下事情的發生..... 面試官開懟面試官：玩過王者榮耀吧

【面試被虐】遊戲中的敏感詞過濾是如何實現的？

小秋今天去面試了，面試官問了一個與敏感詞過濾演算法相關的問題，然而小秋對敏感詞過濾演算法一點也沒聽說過。於是，有了以下事情的發生…

【Python學習筆記】-APP圖標顯示未讀消息數目

運行讀取 lin 簡單實現 ets fcm 筆記 python語言 lte 以小米手機系統為例，當安裝的某個APP有未讀消息時，就會在該APP圖標的右上角顯示未讀消息的數目。本文主要解說怎樣用Python語言實現圖標顯示未讀消息的數目。首先，還是要用到Python中P

【python之路】數據庫

pla mon 符號 lis student 5.1 cal 指定 cit 一、數據庫的簡介　　1.數據庫　　數據庫（database，DB）是指長期存儲在計算機內的，有組織，可共享的數據的集合。數據庫中的數據按一定的數字模型組織、描述和存儲，具有較小的冗余，較高的數據

【Python算法】圖與樹的實現

com 遍歷 alt self. als .com 字典分享 def 鄰接列表及其類似結構　　對於圖結構的實現來說，最直觀的方式之一就是使用鄰接列表。下面我們來實現一個最簡單的：假設現在我們有n個節點，編號分別為0，...，n-1。　　然後，每個鄰接列表就是一個數

【python 走進NLP】英文敏感詞過濾演算法改進版本

相關推薦