1. 程式人生 > ><知識庫的構建> 3-2 條件隨機場Condition Random Field

<知識庫的構建> 3-2 條件隨機場Condition Random Field

right ima alt i+1 矢量化 畫出 全部 應用 ati

@font-face { font-family: "Cambria Math"; }@font-face { font-family: "DengXian"; }@font-face { font-family: "@DengXian"; }p.MsoNormal, li.MsoNormal, div.MsoNormal { margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: "Times New Roman"; }.MsoChpDefault { font-family: DengXian; }div.WordSection1 { }

總結:

建議再看此文之前先了解下馬爾科夫隨機場,博文鏈接:

條件隨機場是馬爾科夫隨機場的一種特殊情況,舉個例子:

P(Y|X1,X2,X3,Y2,Y3) = P(Y| X1,X2,X3,Y2),則說明Y與Y3無關。

CRF的定義:一系列的隨機變量可以生成一個條件隨機場

P(Yi|X1,……,Xn,Y1,…Yi-1,Yi+1,……,Yn) = P(Yi|N(Yi))

N(Yi) 表示Yi的鄰居,此式子表示Yi只由Yi的鄰居決定。

鄰居Neighbors:

什麽樣的變量可以做鄰居:互相可以影響的

我們可以把鄰居映射到無向圖中,則鄰居與鄰居之間可以相連,形成無向圖

舉個例子:若Y1,Y2,Y3,是鄰居,Y4,Y5是鄰居,則可以畫出如下的圖:

技術分享圖片

最大的Clique就是左邊這個,邊為3條。

矢量化的條件隨機場Factorizable CRF:當所有概率全部大於0時,此CRF即可以被矢量化

技術分享圖片

在本章中,CRF是應用於NERC的,所以我們可以把X向量理解為corpus向量,Y向量理解為標簽向量。是勢函數,即關於向量x,y的勢。Ci代表的是Clique i。如何計算勢,我們後面再講。

條件隨機場鏈CRF Chain:在CRF中,若鄰居圖是一條鏈,則叫CRF鏈,所以此時,CRF clique圖中只有兩個成員,即Yi-1和Yi,也就是本身和其predecessor。

我們之前的概率函數為:

技術分享圖片

此時Ci = {Yi-1,Yi}

技術分享圖片

CRF有幾種特殊情況:

1 - 每個成分的勢都一樣時,我們可得

技術分享圖片

所以此時可以把i放進括號裏面,即要知道該成分在X向量中的位置,即對應語料庫中哪一個詞。

2 - 帶features的CRF

我們在NERC章節學到statistical NERC方法中如何用函數表示features,即f(X,i,y) 。此時我們有一個features的向量,即F,並且也定義了每個feature的權重,即w,此時勢函數的定義為:

技術分享圖片

所以我們可得

技術分享圖片

<知識庫的構建> 3-2 條件隨機場Condition Random Field