1. 程式人生 > >詞性標註詞性編碼表

詞性標註詞性編碼表

《PFR人民日報標註語料庫》詞性編碼表

PFR語料庫是對人民日報1998年上半年的純文字語料進行了詞語切分和詞性標註製作而成的,嚴格按照人民日報的日期、版序、文章順序編排的。文章中的每個詞語都帶有詞性標記。目前的標記集裡有26個基本詞類標記(名詞n、時間詞t、處所詞s、方位詞f、數詞m、量詞q、區別詞b、代詞r、動詞v、形容詞a、狀態詞z、副詞d、介詞p、連詞c、助詞u、語氣詞y、嘆詞e、擬聲詞o、成語i、習慣用語l、簡稱j、前接成分h、後接成分k、語素g、非語素字x、標點符號w)外,從語料庫應用的角度,增加了專有名詞(人名nr、地名ns、機構名稱nt、其他專有名詞nz);從語言學角度也增加了一些標記,總共使用了40多個個標記。

程式碼名稱舉例
a形容詞最/d 大/a 的/u
ad副形詞一定/d 能夠/v 順利/ad 實現/v 。/w
ag形語素喜/v 煞/ag 人/n
an名形詞人民/n 的/u 根本/a 利益/n 和/c 國家/n 的/u 安穩/an 。/w
b區別詞副/b 書記/n 王/nr 思齊/nr
c連詞全軍/n 和/c 武警/n 先進/a 典型/n 代表/n
d副詞兩側/f 臺柱/n 上/ 分別/d 雄踞/v 著/u
dg副語素用/v 不/d 甚/dg 流利/a 的/u 中文/nz 主持/v 節目/n 。/w
e嘆詞嗬/e !/w
f方位詞從/p 一/m 大/a 堆/q 檔案/n 中/f 發現/v 了/u
g語素例如dg 或ag
h前接成分目前/t 各種/r 非/h 合作制/n 的/u 農產品/n
i成語提高/v 農民/n 討價還價/i 的/u 能力/n 。/w
j簡稱略語民主/ad 選舉/v 村委會/j 的/u 工作/vn
k後接成分權責/n 明確/a 的/u 逐級/d 授權/v 制/k
l習用語是/v 建立/v 社會主義/n 市場經濟/n 體制/n 的/u 重要/a 組成部分/l 。/w
m數詞科學技術/n 是/v 第一/m 生產力/n
n名詞希望/v 雙方/n 在/p 市政/n 規劃/vn
ng名語素就此/d 分析/v 時/Ng 認為/v
nr人名建設部/nt 部長/n 侯/nr 捷/nr
ns地名北京/ns 經濟/n 執行/vn 態勢/n 喜人/a
nt機構團體[冶金/n 工業部/n 洛陽/ns 耐火材料/l 研究院/n]nt
nx字母專名ATM/nx 交換機/n
nz其他專名德士古/nz 公司/n
o擬聲詞汩汩/o 地/u 流/v 出來/v
p介詞往/p 基層/n 跑/v 。/w
q
量詞不止/v 一/m 次/q 地/u 聽到/v ,/w
r代詞有些/r 部門/n
s處所詞移居/v 海外/s 。/w
t時間詞當前/t 經濟/n 社會/n 情況/n
tg時語素秋/Tg 冬/tg 連/d 旱/a
u助詞工作/vn 的/u 政策/n
ud結構助詞有/v 心/n 栽/v 得/ud 梧桐樹/n
ug時態助詞你/r 想/v 過/ug 沒有/v
uj結構助詞的邁向/v 充滿/v 希望/n 的/uj 新/a 世紀/n
ul時態助詞了完成/v 了/ ul
uv結構助詞地滿懷信