HanLP-基於HMM-Viterbi的人名識別原理介紹

阿新 • • 發佈：2019-08-12

本文主要介紹一下HanLP是如何利用HMM來做人名識別的。基本思想是把詞語序列作為觀測序列，將角色序列作為隱藏序列，當模型預測出最佳隱藏狀態序列後，利用模式最大匹配法，匹配出人名實體。下邊說一模型的三要素在這個應用中所對應的內容，因為訓練階段就是要求解這三個要素的值。

假設有下邊的觀測序列和其對應的隱藏序列

觀察值序列：詞1 詞2 … 詞n

隱變數序列：角色1 角色2 … 角色n

訓練階段：統計三個要素（三個矩陣的元素值）

初始概率分佈：

各隱變數標記意義列於下表

狀態轉移概率分佈：

觀測概率分佈：

有關這些概率值的計算都很簡單，就是頻率法，留在後邊介紹隱馬時候再寫。

預測階段：

根據訓練得到的三個要素，利用Viterbi演算法求解得到了最優隱藏變數序列角色1* 角色2* ... 角色n*

最大模式匹配階段：

利用下邊的模式串匹配出人名

{ BBCD, BBE, BBZ, BCD, BEE,BE,BG,BXD,BZ,CD,EE,FB, Y,XD}

基於HMM-Viterbi標註的人名識別原理就介紹到這裡，我想我應該把原理說清楚了，如果你還沒有看明白，就等著後續的有關隱馬的文章吧。基於隱馬的人名識別會很容把以一個姓氏作為開頭的詞語識別為人名，特別是地名中有人名字的，因此，人工整理出一些非常用姓氏的人名，以及一些地名是必要的，後續如果整理出來了，我應該會放到專欄文章裡，畢竟都是公開語料上做的，也就不涉及什

HanLP-基於HMM-Viterbi的人名識別原理介紹

HanLP-基於HMM-Viterbi的人名識別原理介紹

基於HMM的語音識別（一）

基於HMM的語音識別（二）

【命名實體識別】HMM-Viterbi角色標註中國人名識別

語音識別基本原理介紹------dnn-hmm續

自然語言處理工具HanLP-基於層疊HMM地名識別

個性化推薦系統原理介紹（基於內容過濾／協同過濾／關聯規則／序列模式）

HanLP中人名識別分析

HanLP中的人名識別分析詳解

HanLP中人名識別分析詳解

python基於函式替換的熱更新原理介紹

基於OpenCV3實現人臉識別（原理篇）---PCA（Principal Component Analysis）

python基於函式替換的熱更新原理介紹！

【NLP】基於CRF條件隨機場的命名實體識別原理詳解

四種推薦系統原理介紹（基於內容過濾／協同過濾／關聯規則／序列模式）

SEO 爬蟲原理介紹

基於android的語音識別

線性規劃算法原理介紹

基於 OpenCV 的人臉識別

U盤無法識別修復介紹 U盤數據丟失恢復圖文教程

HanLP-基於HMM-Viterbi的人名識別原理介紹

相關推薦