詞性標註詞性編碼表
阿新 • • 發佈:2019-02-10
《PFR人民日報標註語料庫》詞性編碼表
PFR語料庫是對人民日報1998年上半年的純文字語料進行了詞語切分和詞性標註製作而成的,嚴格按照人民日報的日期、版序、文章順序編排的。文章中的每個詞語都帶有詞性標記。目前的標記集裡有26個基本詞類標記(名詞n、時間詞t、處所詞s、方位詞f、數詞m、量詞q、區別詞b、代詞r、動詞v、形容詞a、狀態詞z、副詞d、介詞p、連詞c、助詞u、語氣詞y、嘆詞e、擬聲詞o、成語i、習慣用語l、簡稱j、前接成分h、後接成分k、語素g、非語素字x、標點符號w)外,從語料庫應用的角度,增加了專有名詞(人名nr、地名ns、機構名稱nt、其他專有名詞nz);從語言學角度也增加了一些標記,總共使用了40多個個標記。
程式碼 | 名稱 | 舉例 |
a | 形容詞 | 最/d 大/a 的/u |
ad | 副形詞 | 一定/d 能夠/v 順利/ad 實現/v 。/w |
ag | 形語素 | 喜/v 煞/ag 人/n |
an | 名形詞 | 人民/n 的/u 根本/a 利益/n 和/c 國家/n 的/u 安穩/an 。/w |
b | 區別詞 | 副/b 書記/n 王/nr 思齊/nr |
c | 連詞 | 全軍/n 和/c 武警/n 先進/a 典型/n 代表/n |
d | 副詞 | 兩側/f 臺柱/n 上/ 分別/d 雄踞/v 著/u |
dg | 副語素 | 用/v 不/d 甚/dg 流利/a 的/u 中文/nz 主持/v 節目/n 。/w |
e | 嘆詞 | 嗬/e !/w |
f | 方位詞 | 從/p 一/m 大/a 堆/q 檔案/n 中/f 發現/v 了/u |
g | 語素 | 例如dg 或ag |
h | 前接成分 | 目前/t 各種/r 非/h 合作制/n 的/u 農產品/n |
i | 成語 | 提高/v 農民/n 討價還價/i 的/u 能力/n 。/w |
j | 簡稱略語 | 民主/ad 選舉/v 村委會/j 的/u 工作/vn |
k | 後接成分 | 權責/n 明確/a 的/u 逐級/d 授權/v 制/k |
l | 習用語 | 是/v 建立/v 社會主義/n 市場經濟/n 體制/n 的/u 重要/a 組成部分/l 。/w |
m | 數詞 | 科學技術/n 是/v 第一/m 生產力/n |
n | 名詞 | 希望/v 雙方/n 在/p 市政/n 規劃/vn |
ng | 名語素 | 就此/d 分析/v 時/Ng 認為/v |
nr | 人名 | 建設部/nt 部長/n 侯/nr 捷/nr |
ns | 地名 | 北京/ns 經濟/n 執行/vn 態勢/n 喜人/a |
nt | 機構團體 | [冶金/n 工業部/n 洛陽/ns 耐火材料/l 研究院/n]nt |
nx | 字母專名 | ATM/nx 交換機/n |
nz | 其他專名 | 德士古/nz 公司/n |
o | 擬聲詞 | 汩汩/o 地/u 流/v 出來/v |
p | 介詞 | 往/p 基層/n 跑/v 。/w |
q | 量詞 | 不止/v 一/m 次/q 地/u 聽到/v ,/w |
r | 代詞 | 有些/r 部門/n |
s | 處所詞 | 移居/v 海外/s 。/w |
t | 時間詞 | 當前/t 經濟/n 社會/n 情況/n |
tg | 時語素 | 秋/Tg 冬/tg 連/d 旱/a |
u | 助詞 | 工作/vn 的/u 政策/n |
ud | 結構助詞 | 有/v 心/n 栽/v 得/ud 梧桐樹/n |
ug | 時態助詞 | 你/r 想/v 過/ug 沒有/v |
uj | 結構助詞的 | 邁向/v 充滿/v 希望/n 的/uj 新/a 世紀/n |
ul | 時態助詞了 | 完成/v 了/ ul |
uv | 結構助詞地 | 滿懷信 |