1. 程式人生 > >Stanford nlp 初步之詞性標註

Stanford nlp 初步之詞性標註

技術分享


關於詞性標記

動詞,形容詞(4種):VA,VC,VE,VV

1、謂詞性形容詞:VA

謂詞性形容詞大致上相當於英語中的形容詞和中文語法中、文學作品裡的靜態動詞。我們的謂詞性形容詞包括兩類:

第一類:沒有賓語且能被“很”修飾的謂語。

第二類:源自第一類的、通過重疊(如紅彤彤)或者通過名詞加形容詞模式意味著“像N一樣A”(如雪白)的謂語。這個型別的謂詞性形容詞沒有賓語,但是有一些不能被“很”修飾,因為這些詞的強調意思已經內嵌在詞內了。

注意:當集合(VA)中的一個詞修飾名詞但沒有用“的”,那麼它被標註為JJ(名作定)或是一個名詞,而不是VA。當集合(VA)中的一個詞有一個賓語,那麼它被標註為

VV,而不是VA。譬如,這 項/M 活動 豐富/VV /AS 他 的/DEG 生活。

2、系動詞:VC

“是”和“為”被標記為VC。如果“非”的意思是“不是”並且句子裡沒有其他動詞時,“非”也被標註為VC

“是”有幾種用法:

·連線兩個名詞短語或者主語:他 是/VC 學生。

·在分裂句中:他 是/VC 昨天 來 的/SP

·為了強調:他 是/VC 喜歡 看 書。

現在,在所有這些情況中,“是”被標註為VC

3 、“有”作為主要動詞:VE

只有當“有,沒{}”和“無”作為主要動詞時(包括佔有的“有”和表存在的“有”等等),被標註為VE

4、其他動詞:VV

VV包括其他動詞,諸如情態動詞,提升謂詞(如“可能”),控制動詞(如“要”、“想”),行為動詞(如“走”),心理動詞(如“喜歡”、“瞭解”、“怨恨”),等等。

名詞(3種):NR,NT,NN

1、專有名詞:NR

專有名詞是名詞的子集。一個專有名詞可以是一個特定的人名,政治或地理上定義的地方(城市、國家、河流、山脈等),或者是一種組織(企業、政府或其他組織實體)。一個專有名詞通常是獨一無二,並且不能被Det+M所修飾的。

·以下名字是專有名詞:

地區/國家/村莊/城市,山脈/河流,報紙/雜誌, 組織/公司,學校/聯盟/基金會,個人/家庭。

·以下名字不是專有名詞:

國籍(如中國人),種族(如白人),職稱(如教授),疾病,職業,器官(如肺),樂器(如鋼琴),遊戲(如足球),花(如玫瑰),等等。

2、時間名詞:NT

時間名詞可以是介詞的賓語,譬如在、從、到、等到。它們可以被問及,如“這個時候”,也可以被用以提問“什麼時候”。它們也可以直接修飾VP

(動詞短語)或者S(主語)。像其他名詞一樣,時間名詞可以是某些動詞的論元。

時間名詞可以是時間的名稱(如1990年、一月、漢朝)或是由“PN+LCN+LCDT+N”等結構組成。

例子:一月、漢朝、當今、何時、今後

3、其他名詞:NN

其他名詞包括所有其他名詞。其他名詞NN,除了地方名詞,一般不能修飾動詞短語(有“地/DEV”或者沒“地/DEV”)。

定位(1):LC

方位詞:LC

很多名詞單獨使用時不能作為介詞如“在”、“到”的論元,也不能直接修飾VP(動詞短語)或者S(主語)。方位詞的一個功能是連線前述的名詞短語或者主語,從而使整個短語可以作為這些介詞的論元或者來修飾動詞短語或主語。

一些方位詞可以獨立使用作為介詞或動詞的論元。一些方位詞可以被“最”修飾。方位詞不能被Det+M所修飾。

方位詞分為兩類:

·方位詞:這類方位詞表示方向、位置等。它們來自名詞。一些可以單獨使用作為介詞或動詞的論元。一些可以被“最”修飾。它們不能被Det+M所修飾。

 —單音節方位詞:如:前,後,裡,外,內,北,東,邊,側,底,間,末,旁。

 —雙音節方位詞:它們由以下部分組成:

   *單音節方位詞加上諸如“以、之”等的語素。

    例子:之間,以北。

   *兩個單音節方位詞。

    例子:前後,左右,上下,東北。

·其他:我們把以下情況標註為LC

  . 為止:到 目前 為止。

  . 開始:從 四月 開始。

  . 來:5年 來。

  . 以來: 1998年 以來。

  . 起: 一九九三年 起。

  . 在內:包括 他 在內。

代詞(1種):PN

代詞的功能是作為名詞短語的替代物或者表示事先詳細說明的或者從上下文可知曉的被叫的人或事。它們一般不受Det+M或者形容詞性短語修飾。

代詞包括人稱代詞(如我、你),當作為名詞短語單獨使用時為指示代詞(如這、那),所有格代名詞(如其)以及反身代詞(如我自己、自己)。

限定詞和數詞(3種):DT,CD,OD

1、限定詞:DT

限定詞包括指示詞(如這、那、該)和諸如“每、各、前、後”等詞。限定詞不包括基數詞和序列詞。

參見限定詞部分。

2、基數詞:CD

CD包括基數詞並隨意與一些概數詞連用,如“來、多、好幾”和諸如“好些、若干、半、許多、很多(如很多 學生)”等詞。

例子:1245,一百。

3、序列詞:OD

序列詞被標註為OD。我們把第+CD看做一個詞,並標註它為OD

例子:第一百。

度量詞(1):M

度量詞跟在數字後形成Det+M結構修飾名詞或動詞,包括類詞(如“個”),表示一群的度量詞,如“群”,以及公里、升等度量詞。

一些度量詞可以被有限的形容詞(如一/CD/JJ/M/NN),臨時量詞可以被名詞和形容詞修飾(如:一/CD/NN箱子/M/NN)。

副詞(1):AD 

副詞包括情態副詞、頻率副詞、程度副詞、連線副詞等,大部分副詞的功能是修飾動詞短語或主語。

如:仍然、很、最、大大、又、約

介詞(1):P

介詞可以把名詞短語或從句作為論元。

註釋:把和被不標註為P,詳見2.11部分。

如:從、對

連詞(2):CC,CS

1、並列連線詞:CC

CC的主要模式是:XP{}CC XP

如:與、和、或、或者、還是(or

2、從屬連詞:CS

從屬連詞連線兩個句子,一個句子從屬於另一個,這樣的連詞標記為CSCS模式是:CS S1S2S2 CSS1

如:如果/CS,……就/AD……

助詞(8):DEC,DEG,DER,DEV,SP,AS,ETC,SP,MSP

1、“的”作為補語標記/名詞化標記:DEC(的,之)

如:吃的DEC

模式是:S/VP DEC{NP}

注:的還有其他標記

·DEC 他的/DEG

·SP   他是/VC一定要來的/SP

·AS   他是/VC在這裡下的/AS車。

2、“的”作為關聯標記或所有格標記:DEG

     模式:NP/PP/JJ/DT DEG{NP}

3、 補語短語 得:DER

   在V--RV-得結構中,“得”標記為DER

   注:有些以“得”結尾的搭配不是V-得結構,如記得,獲得是動詞。

4、方式“地”:DEV

當“地”出現在“XPVP”,XP修飾VP。在一些古典文學中,“的”也用於這種情景,此時“的”也標註為DEV

5、動態助詞:AS

動態助詞僅包括“著,了,過,的”。

6、句末助詞:SP

SP經常出現在句末,如:他好吧[SP]

有時,句末助詞用於錶停頓,如:他吧[SP],人很好。

如:了,呢,吧,啊,呀,嗎

7、 ETC

ETC用於標註等,等等。

8、其他助詞:MSP

“所,以,來,而”,當它們出現在VP前時,標註為MSP

所:他所[MSP]需要的/DEC

以或來:用……以/MSP(或來)維持

而:為……而[MSP]奮鬥

其他(8):IJ,ON,PU,JJ,FW,LB,SB,BA

1、感嘆詞:IJ

出現在句首位置的感嘆詞,如:啊。

2、擬聲詞:ON

① 修飾“ONV”中的VP:雨嘩嘩[ON][DEV]下了[AS]一夜

② 修飾“ON中的N”中的NP:砰[ON]/DEG一聲!

③ 自行成句:砰砰[ON]

④ 一般不能被副詞修飾,如:嘩啦啦,咯吱。

 3、長“被”結構:LB

僅包括“被,叫,給,為(口語中)”,當它們出現在被字結構NP0+LB+NP1+VP

如:他被/LB 我訓了/AS 一頓/M .

注:當叫作為兼語動詞時,“叫”標註為VV

如:他叫/VV你去。

4、短“被”結構:SB(僅包括口語中的“被,給”)

    NP0+SB+VP,他/SB 訓了/AS一頓/M

注:“給”有其他標記:LBVVP

如:你給/P他寫封/M信。

5、把字結構:BA

僅包括“把,將”,當它們出現在把字結構中(NP0+BA+NP1+VP)。

如:他把/BA你騙了/AS

注:“將”有其他標記:ADVV,如:他將/VV[AS]我的[DEG]軍。

6、其他名詞修飾語:JJ

包括三種類型:

①區別詞 只修飾模式JJ++{N}JJ+N中的名詞,且一定要有“的”,它們不能被程度副詞修飾。

如:共同/JJ/DEG目標/NN,她是[VC]/JJ/DEG

②帶有連字元的複合詞

通常為雙音節詞 JJ+N 如留美/JJ學者/NN

③形容詞:新/JJ訊息/NN

模式:JJ+N

注:當“的/DEC”在形容詞和名詞中間時,形容詞標記為VA

7、外來詞:FW

FW僅被用於:當詞性標註標記在上下文中不是很清楚時。外來詞不包括外來詞的翻譯,不包括混合中文的詞(如卡拉OK/NNA/NN),不包括詞義和詞性在文中都是清楚的詞。

8、標點:PU

當標點是詞的一部分時,不用標註為PU,如123,456/CD