機械匹配詞表最大化分詞

阿新 • • 發佈：2018-12-23

2017-05-18

分詞程式碼


# -*- coding:utf-8 -*-
   
#簡單的支援中文的正向最大匹配的機械分詞
   
import string
__dict = {}
   
def load_dict(dict_file='words.dic'):
    #載入詞庫，把詞庫載入成一個key為首字元，value為相關詞的列表的字典
   
    words = [line.split() for line in open(dict_file)]
    
    for word in words:
        
        first_char = word[0][0]
        __dict 
.setdefault(first_char, [])
        __dict[first_char].append(word[0])
      
    #按詞的長度倒序排列
    for first_char, twords in __dict.items():
        __dict[first_char] = sorted(twords, key=lambda x:len(x), reverse=True)
   
def __match_ascii(i, input):
    #返回連續的英文字母，數字，符號, 對英文,字母,符號不處理
    result = '' 

    for i in range(i, len(input)):
        if  input[i] in string.printable: # and input[i] not in string.whitespace: #string.ascii_letters or input[i] in string.digits: 
            result += input[i]
        else:
            break
    
    return result.strip()
   
   
def __match_word(first_char 
, i , input):
    #根據當前位置進行分詞，ascii的直接讀取連續字元，中文的讀取詞庫
   
    if not __dict.get(first_char):
        try:
            if first_char in string.printable: #string.ascii_letters or first_char in string.digits:

                return __match_ascii(i, input)
        except:
            print('except:',first_char,chr(first_char))
        return first_char
   
    words = __dict[first_char]
    for word in words:
        if input[i:i+len(word)] == word:
            return word
   
    return first_char
   
def tokenize(input):
    #對input進行分詞
   
    if not input: return []
   
    tokens = []
    i = 0
    while i < len(input):
        first_char = input[i]
        matched_word = __match_word(first_char, i, input)
        tokens.append(matched_word)
        i += len(matched_word)
   
    return tokens
   
   
if __name__ == '__main__':
    def get_test_text():
        import requests
        url = "http://www.zhb.gov.cn/xxgk/gzdt/201703/t20170321_408538.shtml"
        #url="http://mil.news.sina.com.cn/2016-12-30/doc-ifxzczff3445251.shtml"
        #text = requests.get(url).content
        text = requests.get(url,'utf8').content
        #return text.decode('gbk')
        #print(text.decode('utf8'))
        return text.decode('utf8')
   
    def load_dict_test():
        load_dict()
        i=0;
        for first_char, words in __dict.items():
            print('%d. %s:%s' % (i,first_char, ' '.join(words)))
            i=i+1
            if i>10:
                break
            
   
    def tokenize_test(text):
        load_dict()
        tokens = tokenize(text)
        for token in tokens:
            print(token)
            
    #load_dict_test()
    tokenize_test('美麗的花園裡有各種各樣的小動物')
    tokenize_test('他購買了一盒Rosetta Stone品牌的SHA-PA型號24/6的訂書釘，總價￥24.3元.')
    tokenize_test('1949年10月1日，毛主席站在天安門城樓上莊嚴宣佈：中華人民共和國中央人民政府成立了！');
    tokenize_test('A Happy New Yeear and a Merry Christmas

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    機械匹配詞表最大化分詞
      
                    
				
				2017-05-18 
				
				分詞程式碼


# -*- coding:utf-8 -*-
   
#簡單的支援中文的正向最大匹配的機械分詞
   
import string
__dict = {}
   
def load_dict 

  
 

    

    
    Java機械分詞
      一段   .get   for   tac   adl   oid   label   位置   equal   這是我們做的一個小作業，不多說
直接附上我寫的代碼：
　

    public void Zheng() {
        try {
            BufferedReader b 

  
 

    

    
    中文分詞--逆向最大匹配
      res   最長   java   搜索字符串   name   ++   san   imp   匹配   


上一篇文章中介紹了正向最大匹配。能夠看到有時候效果不是非常好。這裏在介紹一種逆向最大匹配的算法。詞典和匹配的字符串都和上一篇文章同樣

僅僅是本算法是從後到前搜索字符串。然後找到最長的 

  
 

    

    
    中文分詞--最大正向匹配算法python實現
      命中   col   odin   app   ()   切分   --   \n   多個   最大匹配法：最大匹配是指以詞典為依據，取詞典中最長單詞為第一個次取字數量的掃描串，在詞典中進行掃描（為提升掃描效率，還可以跟據字數多少設計多個字典，然後根據字數分別從不同字典中進行掃描）。例如：詞典中最長詞為“中 

  
 

    

    
    php mysql 分詞 模糊查詢 並根據分詞匹配度排序
      close   desc   highlight   this   then   中文   sql   一個數   exec   中文分詞用 SCWS 的api
http://www.xunsearch.com/scws/api.php
1.php中用 curl獲取分詞結果

protected functi 

  
 

    

    
    elasticsearch全域性檢索多分詞器匹配
      
                


在es全域性檢索的需求中，需要進行多個分詞器同時匹配關鍵詞，例如：在商品名稱、品牌名稱和類目名稱中匹配含有“西”關鍵字的查詢結果，當一個欄位匹配時即加入查詢結果用sql語句表達為：select 
 *  from  item where item_name like ' 

  
 

    

    
    python 分詞、自定義詞表、停用詞、詞頻統計與權值（tfidf）、詞性標註與部分詞性刪除
      
                # -*- coding: utf-8 -*-
"""
Created on Tue Apr 17 15:11:44 2018
@author: NAU
"""
##############分詞、自定義詞表、停用詞################
import jieba 
 

  
 

    

    
    jieba分詞增加自定義詞表
      
                
在使用jieba分詞時經常會發現一些未登入詞，因此增加領域詞表就變得很重要，下面提供增加幾種途徑：
1、領域權威詞彙字典
2、搜狗輸入法領域詞庫、百度輸入法領域詞庫


然後這三種類型的使用者此表取個並集即可，在Python中使用集合操作即可，例如，三種字典均為列表（lis 

  
 

    

    
    詞法分析-中文分詞技術-正向最大匹配法與逆向最大匹配法
       
 
 Long Time No See... 
 最近深受痛苦的折磨，這一年來所有的事跌宕起伏，如同一瞬，一個個打擊接踵而至，從年初的各種擦邊掛，到各種失敗，各種放棄，似乎沒有發生一個順心的事，不知道從什麼時候起戾氣變得越來越重，更無與人說。不管如何，“盡吾志也而不能至者，可以無悔矣，其孰能譏之乎？”…… 

  
 

    

    
    分詞查詢按照匹配度相似度進行排序
      
                
方法;
原表table1
id
description
1
霍頓是國外玩水的
2
孫楊是中國的運動員

分詞表table2
id
keyword
1
霍頓
1
國外
1
玩水
2
孫楊
2
中國
2
運動員

查詢語句  ： 霍頓誣陷中國的孫楊
對上述語句進行分詞後，對於每 

  
 

    

    
    MMseg進行機械分詞
      
							
							
							MMseg下載地址



https://github.com/chenlb/mmseg4j-core

在myEclipse下面建立一個Java工程 
然後把



D:\工作\mmseg4j-core-master\mmseg4j-core-master\s 

  
 

    

    
    中文分詞實現——雙向最大匹配
      
                
關於中文分詞的一些基本介紹，可以看這篇部落格《中文分詞方法總結》。這裡就不再進行詳細介紹了。
雙向最大匹配方法
雙向最大匹配方法是一種基於詞典的分詞方法。基於詞典的分詞方法是按照一定策略將待分析的漢字串與一個“大機器詞典”中的詞條進行匹配，若在詞典中找到某個字串，則匹配成功 

  
 

    

    
    用正向和逆向最大匹配演算法進行中文分詞（續）
      
                


一、結果分析：
        1.程式執行結果，如下圖所示：

        2.總體分析。
        （1）正向和逆向匹配都正確的句子數目為 1731，佔句子總數的39.0%
        （2）正向最大匹配完全正確的句子數目為 1917，佔句子總數的43 

  
 

    

    
    中文分詞的逆向最大匹配演算法(2016年)
      
                逆向最大匹配演算法，中文分詞機械化分詞中最基本的演算法，也是入門級別的演算法。但是，在機械化分詞方面的效果，表現卻很好。尤其是在大文字的時候，一次取較多詞語進行匹配，因為大文字匹配成詞的概率遠遠高於小文字，所以會有很好的表現。下面的程式碼，來自IK分詞的一部分原始碼包，201 

  
 

    

    
    HMM最大匹配分詞演算法（Python）
      
								
								            
							
							
							正向最大匹配演算法是我國最早提出的解決中文分詞問題的演算法，因其簡單易操作，至今仍作為機器分詞的粗分演算法，在今天看來，這種演算法的準確率遠不夠高，無法達到令人滿意的要求。這只是一次練習。



待切分 

  
 

    

    
    中文分詞——正向最大匹配法
      
                
中文分詞應用很廣泛，網上也有很多開源專案。我在這裡主要講一下中文分詞裡面演算法的簡單實現，廢話不多說了，現在先上程式碼
package com;


import java.util.ArrayList;
import java.util.List;


public cl 

  
 

    

    
    lucene查詢 之 TermQuery，通過項查詢，及程式碼示例；TermQuery不使用分析器所以建議匹配不分詞的Field域查詢
      
								
								            
						
                
1.1.1. TermQuery
TermQuery，通過項查詢，TermQuery不使用分析器所以建議匹配不分詞的Field域查詢，比如訂單號、分類ID號等。
指定要查詢的域和要查詢的關鍵詞。

/ 

  
 

    

    
    中文分詞演算法之最大正向匹配演算法（Python版）
      
                
最大匹配演算法是自然語言處理中的中文匹配演算法中最基礎的演算法，分為正向和逆向，原理都是一樣的。
正向最大匹配演算法，故名思意，從左向右掃描尋找詞的最大匹配。
首先我們可以規定一個詞的最大長度，每次掃描的時候尋找當前開始的這個長度的詞來和字典中的詞匹配，如果沒有找到，就縮短 

  
 

    

    
    分詞演算法:正向最大匹配演算法
      
								
								            
							
							
							正向最大匹配演算法

正向最大匹配演算法(FMM)是一種基於詞典的分詞方法，同樣的基於詞典的方法還有逆向最大匹配法(RMM)，ngram法.FMM故名思意，左向右掃描尋找詞的最大匹配，是一種貪心的思想。 

  
 

    

    
    自然語言處理--中文分詞之機械分詞
      
                

說到自然語言處理，對於中文首當其衝的就是分詞。

    和西方語言不同，中文句子中不像英語，每個單詞間有空格隔開，而是全部連在一起，詞間沒有明顯的界限。這就為我們的翻譯、檢索等等更高階的資訊處理帶來了不小的麻煩，怎樣將一句話中的關鍵詞提取出來，便成為了中文資訊處理首先要

機械匹配詞表最大化分詞

分詞程式碼

機械匹配詞表最大化分詞

Java機械分詞

中文分詞--逆向最大匹配

中文分詞--最大正向匹配算法python實現

php mysql 分詞模糊查詢並根據分詞匹配度排序

elasticsearch全域性檢索多分詞器匹配

python 分詞、自定義詞表、停用詞、詞頻統計與權值（tfidf）、詞性標註與部分詞性刪除

jieba分詞增加自定義詞表

詞法分析-中文分詞技術-正向最大匹配法與逆向最大匹配法

分詞查詢按照匹配度相似度進行排序

MMseg進行機械分詞

中文分詞實現——雙向最大匹配

用正向和逆向最大匹配演算法進行中文分詞（續）

中文分詞的逆向最大匹配演算法(2016年)

HMM最大匹配分詞演算法（Python）

中文分詞——正向最大匹配法

lucene查詢之 TermQuery，通過項查詢，及程式碼示例；TermQuery不使用分析器所以建議匹配不分詞的Field域查詢

中文分詞演算法之最大正向匹配演算法（Python版）

分詞演算法:正向最大匹配演算法

自然語言處理--中文分詞之機械分詞