1. 程式人生 > >語法和語義解析基本表達標記

語法和語義解析基本表達標記

詞性標記(Part-of-speech tags

例如“noun”、"verb” 、 “preposition”這些詞性標記(POS)分類指定一組詞確定的語法屬性。在英語和其他語言中存在有幾種詞性標記分類方案或者標記集。TurboTagger分配了一種叫做賓州樹庫標記(Penn Treebank POS tag)給輸入的句子中每一個詞,

noun

名詞

單數/不可數
普通NN
專有名詞NNP
複數
普通NNS
專有名詞NNPS

verb

動詞

普通形式VB
現在時態
普通的VBP
第三人稱單數VBZ
過去時態VBD
ing形式VBG
過去分詞/被動形式VBN
情態動詞MD

pronoun

代詞

人稱代詞PRP
物主代詞PRP$
WH形式WP

adjective

形容詞

JJ

adverb

副詞

RB

determiner

限定詞

DT

coordinating conjunction

並列連詞

CC

possessive ending

所有格結尾

POS
toTO

cardinal number

純數

CD

preposition or subordinating conjunction

介詞或從屬連詞

IN

hyphen in split compounds

分割複合詞的連字元

HYPH

electronic address (URL or email)

電子地址(URL地址或者郵箱號碼)

ADD

affix

詞綴

AFX

(superfluous) non-final punctuation

(非必要的)非終結符的標點

NFP

    其中後四個是補充Penn Treebank POS tag的額外的標籤。

依賴解析(Dependency parses

  依賴解析依據標記之間的二元關係表達了一個句子的語法結構。例如,一個動詞連線到它的從屬單元格(引數/修飾),所有的這些依賴構成了一個樹或者一個樹形的圖,Stanford-dependencies是一個代表性的工作,它分類/標記了head-dependent關係型別(這裡我不知道怎麼翻譯好T_T)。包含了:nsubj (nominal subject/名詞性主語),dobj (direct object/直接賓語),iobj (indirect object/間接賓語),aux
 (auxiliary verb/助動詞),prep (prepositional phrase/介詞短語),pobj (object of preposition/介詞賓語),det (determiner/限定詞),nn(noun compound modifier/複合名詞修飾語),amod (adjectival modifier/形容詞修飾語),advmod (adverbial modifier/狀語修飾語),punct(punctuation/標點符號)。下面是一個解析的例子。


  注意,這個解析例子中存在了一些錯誤,Have被錯誤標記成了專有名詞NNP,並給了名詞性主語nsubj的關係,但是它應該被標記為現在時態的普通動詞和助動詞的關係。