Trie樹實現詞頻統計與查詢

阿新 • • 發佈：2018-12-29

#encoding:utf-8
from collections import defaultdict
import sys
reload(sys) 
sys.setdefaultencoding('utf8') 
class LBTrie:  
    """ 
    simple implemention of Trie in Python.  
    """  
    def __init__(self):  
        self.trie = {}  
        self.size = 0  

    #新增單詞   
    def add(self, word): 
  
        p = self.trie 
        dicnum = 0 
        word = word.strip()  
        for c in word:  
            if not c in p:  
                p[c] = {}
            dicnum+=1  
            p = p[c] 


        if word != '':  
            #在單詞末尾處新增鍵值''作為標記，即只要某個字元的字典中含有''鍵即為單詞結尾  
            p[''] = '' 
   
        if dicnum == len(word):
            return True
    #查詢單詞        
    def search(self, word):  
        p = self.trie  
        word = word.lstrip()  
        for c in word:  
            if not c in p:  
                return False  
            p = p[c]  
        #判斷單詞結束標記''  
        if 
 '' in p:  
            return True  
        return False            

    #列印Trie樹的介面  
    def output(self):  
        #print '{'  
        self.__print_item(self.trie)      
        #print '}'  
        return  self.__print_item(self.trie)

    #實現Trie樹列印的私有遞迴函式，indent控制縮排  
    def __print_item(self, p, indent=0):       
        if p:  
            ind = '' + '\t' * indent  
            for key in p.keys():  
                label = "'%s' : " % key  
                print ind + label + '{'  
                self.__print_item(p[key], indent+1)

            print ind + ' '*len(label) + '}'    

def codeutil(strs):
         return strs.decode('utf8','ignore').encode('GBK','ignore').decode('GBK','ignore')

if __name__ == '__main__':  
    trie_obj = LBTrie()  
    #新增單詞  
    corpus = open('content.txt','r')
    tree = open('tree.txt','w+')
    countdic = defaultdict(int)
    for record in corpus.readlines():
        recordlist = record.split(' ')
        for word in recordlist:
            check = trie_obj.add(codeutil(word))
            if check:
                countdic[word] += 1
    resortedcountdic = sorted(countdic.items(), key=lambda item: item[1], reverse=True)
    for tup in resortedcountdic:
     tree.write(''.join(codeutil(tup[0]))+'\t'+str(tup[1])+'\t')
    #查詢單詞       
    if trie_obj.search(codeutil('氨基酸')):  
        print 'Yes'  
    else:  
        print 'No'

Trie樹實現詞頻統計與查詢

#encoding:utf-8 from collections import defaultdict import sys reload(sys) sys.setdefaultencoding('u

trie樹實現模糊查詢

在上一篇部落格裡簡單的說了一下標準trie樹的建立，本來說要做一個小型詞典來用試試，結果這段時間有事就一直耽誤到現在，今天抽了一點時間看看，首先我想到的是在我們輸入某些單詞的前面幾個字母的時候下面的提示，那是trie樹的模糊查詢，便想了想去實現這個功能。

字典樹應用——詞頻統計（C++實現）

來學校交流學習的第一個正式的小專案作業就是軟體工程老師所提出的詞頻統計了，具體要求如下。要求：寫一個程式，分析一個文字檔案中各個詞出現的頻率，並且把頻率最高的10個詞打印出來。文字檔案大約是30KB~300KB大小。解決思路：剛看到這個問題，我腦海

Trie樹_CH1601_字首統計

點此開啟題目頁面思路分析: 直接應用Trie樹即可, 下面給出AC程式碼: //CH1601_字首統計 #include <iostream> #include <cstdio> #include <cstring>

Trie樹應用於統計和排序

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

OpenLayer+PostGIS+GeoServer--無額外後臺實現地理分析與查詢框架

OpenLayer+PostGIS+GeoServer--無額外後臺實現地理分析與查詢框架 1.1 傳統流程在一般情況下，人們使用PostGIS儲存空間資料，以Geoserver釋出資料服務，以OpenLayer客戶端展示地圖。客戶端操作與地理查詢，如果查詢等

利用trie樹實現字首輸入提示（python）

程式碼來自https://github.com/wklken/suggestion/blob/master/easymap/suggest.py 還實現了快取功能，搜尋某個字首超過一定次數時，進行快取，減少搜尋時間：將詞字尾部分儲存在節點使用了詞頻資訊，可以對返回的列表進行排序使用dict實現tri

Python Trie樹實現最長字首字串提取

在文字解析專案中，經常會碰到提取品牌、商家名等需求。如給定一個手機型號字串，要求從中提取出品牌。Trie可以很好滿足此類需求。 Tire，也叫字首樹字典樹，是一種資料結構，可以用來快速檢索字串是否存在以及在字串開始處抽取預定義的子字串。 Python中無指標，使用Dict

python 分詞、自定義詞表、停用詞、詞頻統計與權值（tfidf）、詞性標註與部分詞性刪除

# -*- coding: utf-8 -*- """ Created on Tue Apr 17 15:11:44 2018 @author: NAU """ ##############分詞、自定義詞表、停用詞################ import jieba

使用Trie樹實現網站對使用者輸入的敏感詞打碼

使用Trie樹實現網站對使用者輸入的敏感詞打碼什麼是Trie樹？ Trie樹，又稱單詞查詢樹，Trie樹，是一種樹形結構，是一種雜湊樹的變種。典型應用是用於統計，排序和儲存大量的字串（但不僅限於字串），所以經常被搜尋引擎系統用於文字詞頻統計。它的優點是：利用字串的公共字

用Huffman樹實現檔案壓縮與解壓

用Huffman樹實現檔案的壓縮與解壓我們先來了解一下什麼是Huffman樹？我們平常所使用的Zip等壓縮工具都是藉助Huffman樹實現的，Huffman是一種特殊的二叉樹，它是一種加權路徑最短的二叉樹，因此也稱為最優二叉樹。（下面用一

使用單詞樹進行詞頻統計演算法

許多英語培訓機構（如新東方）都會出幾本“高頻詞彙”的書，主要內容是統計近幾年來各類外語考試中屢次出現的高頻詞彙，幫助考生減少需要背的生詞的數量。但這些高頻是如何被統計出來的呢？顯然不會用手工去計算。　　假如我們已經將一篇文章存在一字串(String)物件中，為了統計詞

JAVA小程式——實現詞頻統計

要求： i、新建文字檔案data.txt ii、隨便輸入一些英文單詞，單詞之間用 “空格”隔開 iii、統計各個單詞出現的次數。 iv、對結果進行排序 a、安裝次數進行降序 b、如果次數相同，安裝單詞的字典順序排序eg:ja

中文詞頻統計與詞雲生成

讀取 word .com cloud 雲圖文本文 span odi otl 中文詞頻統計 1. 下載一長篇中文小說。 2. 從文件讀取待分析文本。 ltxz = open(r‘F:/ltxz.txt‘,‘r‘,encoding=‘utf-8‘).read()

Trie樹：統計詞頻、排序、查詢

Trie樹利用字串的公共字首降低了查詢時間的開銷，提高了查詢的效率。字典樹的插入，刪除和查詢都非常簡單，用一個一重迴圈即可。 1. 從根節點開始一次搜尋 2. 取得要查詢關鍵詞的第一個字母，並根據該字母選擇對應的子樹並轉到該子樹繼續進行檢索 3. 在相應的子樹上，取得要查

[Trie樹] 統計英文文字中單詞出現的個數 - C語言實現 - 考慮數字、英文

【英文文字】 However, after reaching the shore there are plenty of challenges waiting for him."The biggest challenge now is learning to walk agai

字典樹-大量字串字首及出現次數是否存在統計(Trie樹-java)演算法實現

前言字典樹又稱單詞查詢樹，它是一種樹形結構，是一種雜湊樹的變種，典型應用是用於統計，儲存大量的字串（但不僅限於字串），統計以是否有以某字串最為字首的字串，有的話有多少，某字串出現了多少

Trie樹(字典樹)_實現模糊查詢(支援中文)

一、什麼是Trie樹 Trie書又名字典樹，字典是由一組片語成的集合，而字典樹對這個集合進行了結構化的組織，將字典用另一種表達方式進行了表達。首先字典書對一些具有公共字首的詞進行了“壓縮”，大大減小了它佔用的空間。同時對於字典內詞的字首檢索也十分迅速，下面看一個圖來理解下字典樹：上面的圖就是字典樹，字

Trie樹詞頻統計例項

Trie樹簡介 Trie樹，也叫字首字典樹，是一種較常用的資料結構。常用於詞頻統計，字串的快速查詢，最長字首匹配等問題以及相關變種問題。資料結構表現形式如下圖所示： Trie樹的根為空節點，不存放資料。每個節點包含了一個指標陣列，陣列大小通常為2

高階資料結構的學習與實現之 Trie樹，字典樹

第一次自學一種新的資料結構，感覺學會利用資源很重要，參考別人寫的部落格，谷歌搜尋一下關於這中資料結構的一些問題，解決等，學會搜尋資料，學習並掌握一門資料結構並不是很難。要知道相關的基本知識，主要應用與哪一方面，還有它的具體實現是如何的。在編碼的時候還是會遇到各種問題，需

Trie樹實現詞頻統計與查詢

相關推薦