詞性標註維特比演算法實現

阿新 • • 發佈：2020-07-22

基於前幾篇文章對維特比演算法的說明，此文對維特比演算法進行實現，並基於維特比演算法實現給定語句的詞性標註。關於\(pi,A,B\)的說明參考文章詞性標註語料預處理實戰，維特比相關演算法說明參考詞性標註維特比演算法介紹

def log(v):
    if v == 0:
        return np.log(v+0.000001)
    return np.log(v)


def vertibe(x, pi, A, B):
    """
    :param x:輸入的待預測詞性的文字，例如 "I like NLP"
    :param pi:初始的詞性概率
    :param A:給定詞性，每個單詞的概率
    :param B:詞性之間的狀態轉移概率
    :return:
    """
    # 處理輸入的文字數，獲取輸入文字在上文處理的id號
    x = [word2id[word] for word in x.split(" ")]
    # 獲取輸入文字分詞後的長度
    T = len(x)
    # dp[i][j] 標識第i個詞的詞性為第j個詞性
    dp = np.zeros((T, N))

    ptr = np.array([[0 for x in range(N)] for y in range(T)])
    # 計算第一個詞在給定詞性的概率
    for j in range(N):
        dp[0][j] = log(pi[j]) + log(A[j][x[0]])

    for i in range(1, T):   # 迴圈每一個單詞
        for j in range(N):  # 每個詞性
            dp[i][j] = -99999999   # 設定一個很小的分值，作為後續計算每次的計算比較值
            for k in range(N):  # 迴圈每個詞性，計算從上一個詞性到當前詞性的值
                score = dp[i-1][k] + log(B[k][j]) + log(A[j][x[i]])
                if score > dp[i][j]:
                    dp[i][j] = score
                    ptr[i][j] = k   # 記錄得分最高的值是從上一層的那個節點過來的
    # 把最好的詞性標註序列打印出來
    best_seq = [0]*T
    # step 1 找出對應於最後一個詞的詞性
    best_seq[T-1] = np.argmax(dp[T-1])
    # step 2 通過迴圈，從後到前依次求出每個單詞的詞性
    for i in range(T-2, -1, -1):
        best_seq[i] = ptr[i+1][best_seq[i+1]]

    # 列印預測的詞性序列
    for i in range(len(best_seq)):
        print(id2tag[best_seq[i]])

x = "Newsweek , trying to keep pace with rival Time magazine , announced new advertising rates for 1990"

vertibe(x, pi, A, B)

執行結果如下

NNP
,
VBG
TO
VB
NN
IN
JJ
NN
NN
,
VBD
JJ
NN
NNS
IN
CD

該測試語料是從訓練語料中提取的，我們看下訓練語料的標註，如下所示

Newsweek/NNP
,/,
trying/VBG
to/TO
keep/VB
pace/NN
with/IN
rival/JJ
Time/NNP
magazine/NN
,/,
announced/VBD
new/JJ
advertising/NN
rates/NNS
for/IN
1990/CD

前面是詞，後面是該詞的詞性，從對比看，詞性標註的預測結果相對準確。

備註：此章節實現參考了貪心學院的相關視訊課程和程式碼，在此標註。

詞性標註維特比演算法實現

基於前幾篇文章對維特比演算法的說明，此文對維特比演算法進行實現，並基於維特比演算法實現給定語句的詞性標註。關於\\(pi,A,B\\)的說明參考文章詞性標註語料預處理實戰，維特比相關演算法說明參考詞性標註維特比演

詞性標註維特比演算法介紹

對求解詞性標註過程中使用的維特比演算法進行介紹。籬笆網路(Lattice)的最短路徑問題

維特比演算法之中文分詞

維特比原理尋找上圖最短路徑中文分詞此專案需要的資料：綜合類中文詞庫.xlsx：包含了中文詞，當做詞典來用

維特比演算法和隱馬爾可夫模型的解碼

一、概述維特比演算法是安德魯.維特比(Andrew Viterbi)於1967年為解決通訊領域中的解碼問題而提出的，它同樣廣泛用於解決自然語言處理中的解碼問題，隱馬爾可夫模型的解碼是其中典型的代表。無論是通訊中的解碼

viterbi 維特比解碼過程，狀態轉移矩陣

viterbi過程1.hmm類似。狀態轉移，發射概率2.逐次計算每個序列節點的所有狀態下的概率值，最大概率值對應的index。3.概率值的計算，上一個節點的概率值*轉移概率+當前概率值。4.最後取出最大的一個值對應的indexes

C++實現Dijkstra(迪傑斯特拉)演算法

Dijkstra演算法 Dijkstra(迪傑斯特拉)演算法是典型的最短路徑路由演算法，是廣度優先演算法的一種，用於計算一個節點到其他所有節點的最短路徑。主要特點是以起始點為中心向外層層擴充套件，直到擴充套件到終點為止。

[比特幣]比特幣的實現

比特幣系統是一個基於交易的賬本，這意味著儲存在賬本中的是一筆筆交易。那麼在使用者進行轉賬交易時，首先就需要確保使用者所持有的數量要大於或等於將要交易的。這要做的目的是為了避免雙花問題。

圖論——迪傑斯特拉演算法（Dijkstra）實現，leetcode

迪傑斯特拉演算法（Dijkstra）：求一點到另外一點的最短距離兩種實現方法：

Python實現迪傑斯特拉演算法過程解析

一、迪傑斯特拉演算法思想 Dijkstra演算法主要針對的是有向圖的單元最短路徑問題，且不能出現權值為負的情況！Dijkstra演算法類似於貪心演算法，其應用根本在於最短路徑的最優子結構性質。

python 還原梯度下降演算法實現一維線性迴歸

首先我們看公式：這個是要擬合的函式然後我們求出它的損失函式，注意：這裡的n和m均為資料集的長度，寫的時候忘了

Python實現迪傑斯特拉演算法並生成最短路徑的示例程式碼

def Dijkstra(network,s,d):#迪傑斯特拉演算法算s-d的最短路徑，並返回該路徑和代價

c語言實現高響應比演算法_常用排序演算法C語言實現

技術標籤：c語言實現高響應比演算法 #include <iostream> #include <algorithm> using namespace std;

DPOS共識演演算法實現(Golang版)

DPOS原理 DPOS全稱Delegated proof of Stake，中文是委託權益證明。可以理解為整個區塊鏈網路有許多節點，我們需要選出一些節點作為代表來維護整個區塊鏈網路，這些代表需要保證區塊鏈的安全和效能，不需要通過PO

N皇后問題暴力解和回溯解問題分析和演演算法實現-leetcode困難難度

n皇后問題是經典的回溯解題的案例，回溯一般用在有多個解的演演算法中，回溯的核心是窮舉，一般通過必要的減枝提高效率(減少重複計算等)，得到一個解後，把當前解進行儲存，然後將當前解標記為未解決，繼續嘗試下一個

基於統計的預警：同環比預警實現深度剖析

摘要：UAV.Monitor提供了對全維監控指標的預警功能，各型別的監控指標均可配置預警策略，當預警策略被觸發後，可通過郵件、HTTP呼叫等方式進行通知報警，並會根據預警時間頻率等對報警動作進行壓制。

C++貪心演算法實現活動安排問題(例項程式碼)

貪心演算法貪心演算法（又稱貪婪演算法）是指，在對問題求解時，總是做出在當前看來是最好的選擇。也就是說，不從整體最優上加以考慮，他所做出的是在某種意義上的區域性最優解。

Java二分查詢演算法實現程式碼例項

這篇文章主要介紹了Java二分查詢演算法實現程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python3 A*尋路演算法實現方式

我就廢話不多說了，直接上程式碼吧！ # -*- coding: utf-8 -*- import math import random import copy

python二分法查詢演算法實現方法【遞迴與非遞迴】

本文例項講述了python二分法查詢演算法實現方法。分享給大家供大家參考，具體如下：

Python計算不規則圖形面積演算法實現解析

這篇文章主要介紹了Python計算不規則圖形面積演算法實現解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

詞性標註維特比演算法實現

相關推薦