逆向最大匹配演算法之python實現

阿新 • • 發佈：2018-11-21

1.執行環境
python 3.6.4
2.思路
大致思路與正向相同，可參考我的上一篇部落格。
3.程式碼實現

import codecs

#獲得分詞字典，儲存為字典形式
f1 = codecs.open('./corpus/WordList.txt', 'r', encoding='utf8')
dic = {}
while 1:
    line = f1.readline()
    if len(line) == 0:
        break
    term = line.strip() #去除字典兩側的換行符，避免最大分詞長度出錯
    dic[term] = 1 

f1.close()

#獲得需要分詞的文字，為字串形式
f2 = codecs.open('./corpus/zoo.txt', 'r', encoding='utf8')
chars = f2.read().strip()
f2.close()

#獲得停用詞典，儲存為字典形式
f3 = codecs.open('stop_words.txt', 'r', encoding='utf8')
stoplist = {}
while 1:
    line = f3.readline()
    if len(line) == 0:
        break
    term = line.strip()
    stoplist[term] = 1 

f3.close()

#正向匹配最大分詞演算法
#遍歷分詞詞典，獲得最大分詞長度
max_chars = 0
for key in dic:
    if len(key) > max_chars:
        max_chars = len(key)

#定義一個空列表來儲存分詞結果
words = []
n = len(chars) #待分詞文字的長度
while n > 0:
    matched = 0
    #range([start,] stop[, step])，根據start與stop指定的範圍以及step設定的步長 step=-1表示去掉最後一位
    for 
 i in range(max_chars, 0, -1): #i等於max_chars到1
        if n - i < 0: #若待分詞文字長度小於最大字典詞長，則終止迴圈
            continue
        s = chars[n - i : n] #擷取文字字串n到n+1位
        #判斷所擷取字串是否在分詞詞典和停用詞詞典內
        if s in dic:
            if s in stoplist: #判斷是否為停用詞
                words.append(s)
                matched = 1
                n = n - i
                break
            else:
                words.append(s)
                matched = 1
                n = n - i
                break
        if s in stoplist:
            words.append(s)
            matched = 1
            n = n - i
            break
    if not matched: #等於 if matched == 0
        words.append(chars[n - 1: n])
        n = n - 1
words.reverse()
#分詞結果寫入檔案
f3 = open('RMMResult.txt','w', encoding='utf8')
f3.write('/'.join('%s' %id for id in words))
f3.close()

4.執行結果
待分詞文字：zoo.txt
這裡寫圖片描述
粉刺結果：RMMResult.txt

5.參考資料
(1)Python自然語言處理實戰核心技術與演算法

逆向最大匹配演算法之python實現

1.執行環境 python 3.6.4 2.思路大致思路與正向相同，可參考我的上一篇部落格。 3.程式碼實現 import codecs #獲得分詞字典，儲存為字典形式 f1 = codecs.open('./corpus/WordList.txt', 'r', encodi

用正向和逆向最大匹配演算法進行中文分詞（續）

一、結果分析： 1.程式執行結果，如下圖所示： 2.總體分析。（1）正向和逆向匹配都正確的句子數目為 1731，佔句子總數的39.0% （2）正向最大匹配完全正確的句子數目為 1917，佔句子總數的43

中文分詞的逆向最大匹配演算法(2016年)

逆向最大匹配演算法，中文分詞機械化分詞中最基本的演算法，也是入門級別的演算法。但是，在機械化分詞方面的效果，表現卻很好。尤其是在大文字的時候，一次取較多詞語進行匹配，因為大文字匹配成詞的概率遠遠高於小文字，所以會有很好的表現。下面的程式碼，來自IK分詞的一部分原始碼包，201

正向最大匹配演算法實現之python實現

1.python 版本：python 3.6.4 2.思路： s1.匯入分詞詞典，儲存為字典形式dic,匯入停用詞詞典stop_words，儲存為字典形式,需要分詞的文字檔案cutTest.txt,儲存為字串chars s2.遍歷分詞詞典，找出最長的詞，長度為max_chars s3

二分圖最大匹配問題之網路流演算法

實質：把多源，多匯網路，構造成單源單匯網路，同時置所有邊的容量為1。操作：（G=（X∪Y，E））（1）增加一個源點s和一個匯點t；（2）從s向集合X的每一個頂點引一條有向邊，從集合Y的每一個頂點向t引一條有向邊；（3）將原圖的每條邊改為從集合X向集合Y的有向邊；（

中文分詞之正向最大匹配演算法

中文分詞目前可以分為“規則分詞”，“統計分詞”，“混合分詞（規則+統計）”這三個主要流派。這次介紹下基於規則的分詞，其是一種機械的分詞方法，主要通過維護詞典，在切分語句時，將語句的每個字串與詞表中的詞逐一進行匹配，找到則切分，否則不予切分。正向最大匹配演算法

模擬退火演算法求函式最大、小值——python實現

模擬退火演算法（Simulate Anneal，SA）是一種通用概率演演算法，用來在一個大的搜尋空間內找尋命題的最優解。模擬退火是由S.Kirkpatrick, C.D.Gelatt和M.P.Vecchi在1983年所發明的。V.Černý在1985年也獨

雙向最大匹配演算法——基於詞典規則的中文分詞(Java實現)

目錄一、中文分詞理論描述二、演算法描述 1、正向最大匹配演算法 2、反向最大匹配演算法 3、雙劍合璧三、案例描述四、JAVA實現完整程式碼五、組

中文分詞--逆向最大匹配

res 最長 java 搜索字符串 name ++ san imp 匹配上一篇文章中介紹了正向最大匹配。能夠看到有時候效果不是非常好。這裏在介紹一種逆向最大匹配的算法。詞典和匹配的字符串都和上一篇文章同樣僅僅是本算法是從後到前搜索字符串。然後找到最長的

網路流 - 最大流演算法之EK

首先是網路流中的一些定義： V表示整個圖中的所有結點的集合. E表示整個圖中所有邊的集合. G = (V,E) ,表示整個圖. s表示網路的源點,t表示網路的匯點. 對於每條邊(u,v),有一個容量c(u,v) (c(u,v)>=0)，如果c(u,v)=0，則表示(

【分類】KNN分類演算法之Python實現

KNN稱為K最近鄰。對於待分類資料，它先計算出與其最相近的K個的樣本，然後判斷這K個樣本中最多的類標籤，並將待分類資料標記為這個最多的類標籤。 python樣例程式碼： import numpy as np from sklearn.neighbors import KN

詞法分析-中文分詞技術-正向最大匹配法與逆向最大匹配法

Long Time No See... 最近深受痛苦的折磨，這一年來所有的事跌宕起伏，如同一瞬，一個個打擊接踵而至，從年初的各種擦邊掛，到各種失敗，各種放棄，似乎沒有發生一個順心的事，不知道從什麼時候起戾氣變得越來越重，更無與人說。不管如何，“盡吾志也而不能至者，可以無悔矣，其孰能譏之乎？”……

最大熵模型及其python實現

剛開始學習最大熵模型的時候，自以為書中的推導都看明白了。等到自己實現時才發現問題多多。因此，這篇部落格將把重點放在python程式的解讀上，為什麼說是解讀呢，因為這個程式不是我寫的（輕點噴~~），這個程式參考了網上的一篇部落格，地址：http://blog.cs

樸素貝葉斯演算法之python實現　統計學習方法例4.2實戰

　本人在自學李航老師的統計學習方法，在學習樸素貝葉斯章節時，其中概念非常好理解，但是準備想把課本中的例題實戰一下時卻犯了難，有點無從下手的感覺，主要是因為怎麼去合理的去寫，提高程式碼的適應性以及重複利用率。　在網上找了蠻多部落格，大部分都是是判斷情感詞等，其中有篇部落

從暴力求解到動態規劃—— 7 種方法求解連續子陣列的最大和問題（python實現）

問題描述已知一個數組 a[n]，裡面存放著浮點數，可能是正數、負數或0。求它的所有連續子陣列中的最大和。連續子陣列：指的是陣列的一個連續切片，即可以表示為 a[i:j],0≤i≤j<n。連續子陣列的和：比如連續子陣列為 a[i:j] ，則和為

狄克斯特拉演算法之Python實現（個人獨創）易於理解和擴充套件。

狄克斯特拉演算法的基礎關係模型如下：它解決的是從起點到終點的最佳路線問題。如果把上圖的數字代表耗時，那就是要找到耗時最短的路徑。由於本人較懶，先將原始碼給出來，之後有時間再解釋程式碼的意思。下面程式碼針對的關係模型如下： # 資料關係模型用字典巢狀字

分詞演算法:正向最大匹配演算法

正向最大匹配演算法正向最大匹配演算法(FMM)是一種基於詞典的分詞方法，同樣的基於詞典的方法還有逆向最大匹配法(RMM)，ngram法.FMM故名思意，左向右掃描尋找詞的最大匹配，是一種貪心的思想。

類動態規劃求解較小規模的最大團問題（Python實現）

1.圖：由點、邊（點與點之間連線），組成的集合，如點集V=[0,1,2,3,4]，邊集E=[[1,3,4],[2,3,4],[4],[4],[]]，則（V，E）就是一個圖，其表達的意思如下：該圖中含有5個端點，分別為0,1,2,3,4，這些點存在V中，如端點1對應V

基於詞典的正向最大匹配演算法（最長詞優先匹配）

public Set<String> matchChinese(String text, Set<String> dictionary, int maxLength) { //text：待匹配文字 dictiona：詞典

網路最大流演算法之Ford_Fullkerson方法，EK演算法c++模板

該演算法最精華的部分是反向邊的理解，即修改容量的時候為什麼反向邊加上該值， c[pre[i]][i]-=_min; c[i][pre[i]]+=_min; 在演算法導論中對求解最大流問題給出了一般性的解決方法，但並沒有涉

逆向最大匹配演算法之python實現

相關推薦