HMM演算法-viterbi演算法的實現及與分詞、詞性標註、命名實體識別的引用

阿新 • • 發佈：2019-01-29

轉自：http://www.hankcs.com/nlp/hmm-and-segmentation-tagging-named-entity-recognition.html

HMM（隱馬爾可夫模型）是用來描述隱含未知引數的統計模型，舉一個經典的例子：一個東京的朋友每天根據天氣{下雨，天晴}決定當天的活動{公園散步,購物,清理房間}中的一種，我每天只能在twitter上看到她發的推“啊，我前天公園散步、昨天購物、今天清理房間了！”，那麼我可以根據她發的推特推斷東京這三天的天氣。在這個例子裡，顯狀態是活動，隱狀態是天氣。

2014年11月23日更新：

我已利用HMM角色標註實現了中國人名、翻譯人名、日本人名、地名、機構名等命名實體的識別，請參考此目錄

命名實體識別。

HMM描述

任何一個HMM都可以通過下列五元組來描述：

:param obs:觀測序列
:param states:隱狀態
:param start_p:初始概率（隱狀態）
:param trans_p:轉移概率（隱狀態）
:param emit_p:發射概率（隱狀態表現為顯狀態的概率）

例子描述

這個例子可以用如下的HMM來描述：

states =('Rainy','Sunny')
observations =('walk','shop','clean')
start_probability ={'Rainy':0.6,'Sunny':0.4}
transition_probability

={
'Rainy':{'Rainy':0.7,'Sunny':0.3},
'Sunny':{'Rainy':0.4,'Sunny':0.6},
}
emission_probability ={
'Rainy':{'walk':0.1,'shop':0.4,'clean':0.5},
'Sunny':{'walk':0.6,'shop':0.3,'clean':0.1},
}

求解最可能的天氣

求解最可能的隱狀態序列是HMM的三個典型問題之一，通常用維特比演算法解決。維特比演算法就是求解HMM上的最短路徑（-log(prob)，也即是最大概率）的演算法。

稍微用中文講講思路，很明顯，第一天天晴還是下雨可以算出來：

定義V[時間][今天天氣] = 概率，注意今天天氣指的是，前幾天的天氣都確定下來了（概率最大）今天天氣是X的概率，這裡的概率就是一個累乘的概率了。
因為第一天我的朋友去散步了，所以第一天下雨的概率V[第一天][下雨] = 初始概率[下雨] * 發射概率[下雨][散步] = 0.6 * 0.1 = 0.06，同理可得V[第一天][天晴] = 0.24 。從直覺上來看，因為第一天朋友出門了，她一般喜歡在天晴的時候散步，所以第一天天晴的概率比較大，數字與直覺統一了。
從第二天開始，對於每種天氣Y，都有前一天天氣是X的概率 * X轉移到Y的概率 * Y天氣下朋友進行這天這種活動的概率。因為前一天天氣X有兩種可能，所以Y的概率有兩個，選取其中較大一個作為V[第二天][天氣Y]的概率，同時將今天的天氣加入到結果序列中
比較V[最後一天][下雨]和[最後一天][天晴]的概率，找出較大的哪一個對應的序列，就是最終結果。

這個例子的Python程式碼：

# -*- coding:utf-8 -*-
# Filename: viterbi.py
# Author：hankcs
# Date: 2014-05-13 下午8:51
states =('Rainy','Sunny')
observations =('walk','shop','clean')
start_probability ={'Rainy':0.6,'Sunny':0.4}
transition_probability ={
'Rainy':{'Rainy':0.7,'Sunny':0.3},
'Sunny':{'Rainy':0.4,'Sunny':0.6},
}
emission_probability ={
'Rainy':{'walk':0.1,'shop':0.4,'clean':0.5},
'Sunny':{'walk':0.6,'shop':0.3,'clean':0.1},
}
# 列印路徑概率表
def print_dptable(V):
print" ",
for i in range(len(V)):print"%7d"% i,
print
for y in V[0].keys():
print"%.5s: "% y,
for t in range(len(V)):
print"%.7s"%("%f"% V[t][y]),
print
def viterbi(obs, states, start_p, trans_p, emit_p):
"""
:param obs:觀測序列
:param states:隱狀態
:param start_p:初始概率（隱狀態）
:param trans_p:轉移概率（隱狀態）
:param emit_p: 發射概率（隱狀態表現為顯狀態的概率）
:return:
"""
# 路徑概率表 V[時間][隱狀態] = 概率
V =[{}]
# 一箇中間變數，代表當前狀態是哪個隱狀態
path ={}
# 初始化初始狀態 (t == 0)
for y in states:
V[0][y]= start_p[y]* emit_p[y][obs[0]]
path[y]=[y]
# 對 t > 0 跑一遍維特比演算法
for t in range(1, len(obs)):
V.append({})
newpath ={}
for y in states:
# 概率隱狀態 = 前狀態是y0的概率 * y0轉移到y的概率 * y表現為當前狀態的概率
(prob, state)= max([(V[t -1][y0]* trans_p[y0][y]* emit_p[y][obs[t]], y0)for y0 in states])
# 記錄最大概率
V[t][y]= prob
# 記錄路徑
newpath[y]= path[state]+[y]
# 不需要保留舊路徑
path = newpath
print_dptable(V)
(prob, state)= max([(V[len(obs)-1][y], y)for y in states])
return(prob, path[state])
def example():
return viterbi(observations,
states,
start_probability,
transition_probability,
emission_probability)
print example()

輸出：

012
Rainy:0.060000.038400.01344
Sunny:0.240000.043200.00259
(0.01344,['Sunny','Rainy','Rainy'])

NLP應用

具體到分詞系統，可以將天氣當成“標籤”，活動當成“字或詞”。那麼，幾個NLP的問題就可以轉化為：

詞性標註：給定一個詞的序列（也就是句子），找出最可能的詞性序列（標籤是詞性）。如ansj分詞和ICTCLAS分詞等。
分詞：給定一個字的序列，找出最可能的標籤序列（斷句符號：[詞尾]或[非詞尾]構成的序列）。結巴分詞目前就是利用BMES標籤來分詞的，B（開頭）,M（中間),E(結尾),S(獨立成詞）
命名實體識別：給定一個詞的序列，找出最可能的標籤序列（內外符號：[內]表示詞屬於命名實體，[外]表示不屬於）。如ICTCLAS實現的人名識別、翻譯人名識別、地名識別都是用同一個Tagger實現的。

小結

HMM是一個通用的方法，可以解決貼標籤的一系列問題。

自己根據以上內容的一些個人體會：

1、HMM演算法是一個D*D*N的問題；

2、前一隱狀態的概率全部求出來，根據前一隱狀態的概率依次求取後一隱狀態的各個概率，後一序列中的每一個狀態的最大值作為當前序列隱狀態的概率，並記錄前一隱狀態到當前隱狀態的路徑，一個動態規劃實現最短路徑，viterbi演算法。基於統計的方法，實現最大概率路徑。

建模公式：y為狀態（標籤），x為顯狀態（詞）一個轉移概率矩陣，一個發射概率矩陣。

HMM演算法-viterbi演算法的實現及與分詞、詞性標註、命名實體識別的引用

HMM描述

例子描述

求解最可能的天氣

這個例子的Python程式碼：

輸出：

NLP應用

小結

HMM演算法-viterbi演算法的實現及與分詞、詞性標註、命名實體識別的引用

HMM與分詞、詞性標註、命名實體識別

用pyltp做分詞、詞性標註、ner

文字處理（二）詞頻統計,jieba分詞，詞性標註，snownlp情感分析

Python 文字挖掘：jieba中文分詞和詞性標註

Deep Learning 在中文分詞和詞性標註任務中的應用

結巴分詞4--詞性標註

清華大學thulac分詞和詞性標註程式碼理解

NLP漢語自然語言處理原理與實踐 5 詞性、語塊和命名實體識別

python3進行中文分詞和詞性標註

中文分詞的演算法與實現（結巴分詞）

演算法練習02 實現數字千分位分割

Bellman-Ford演算法 C++/java實現及優化

演算法導論中紅黑樹插入演算法的C+實現及優化改進

作業系統課程設計--磁碟排程演算法的模擬實現及對比

【演算法】java版紅黑樹演算法的完整實現及swing介面演示程式

RSA演算法的Java實現及Base64的正確使用

【演算法課】遞迴與分治法

九大排序演算法-C語言實現及詳解

動態規劃演算法和c++實現國王與金礦問題

HMM演算法-viterbi演算法的實現及與分詞、詞性標註、命名實體識別的引用

HMM描述

例子描述

求解最可能的天氣

這個例子的Python程式碼：

輸出：

NLP應用

小結

相關推薦