1. 程式人生 > >ICTCLAS 漢語詞性標註集 中科院

ICTCLAS 漢語詞性標註集 中科院


Ag 形語素 形容詞性語素。形容詞程式碼為a,語素程式碼g前面置以A。

a 形容詞 取英語形容詞adjective的第1個字母。

ad 副形詞 直接作狀語的形容詞。形容詞程式碼a和副詞程式碼d並在一起。

an 名形詞 具有名詞功能的形容詞。形容詞程式碼a和名詞程式碼n並在一起。

b 區別詞 取漢字“別”的聲母。

c 連詞 取英語連詞conjunction的第1個字母。

Dg 副語素 副詞性語素。副詞程式碼為d,語素程式碼g前面置以D。

d 副詞 取adverb的第2個字母,因其第1個字母已用於形容詞。

e 嘆詞 取英語嘆詞exclamation的第1個字母。

f 方位詞 取漢字“方”

g 語素 絕大多數語素都能作為合成詞的“詞根”,取漢字“根”的聲母。

h 前接成分 取英語head的第1個字母。

i 成語 取英語成語idiom的第1個字母。

j 簡稱略語 取漢字“簡”的聲母。

k 後接成分

l 習用語 習用語尚未成為成語,有點“臨時性”,取“臨”的聲母。

m 數詞 取英語numeral的第3個字母,n,u已有他用。

Ng 名語素 名詞性語素。名詞程式碼為n,語素程式碼g前面置以N。

n 名詞 取英語名詞noun的第1個字母。

nr 人名 名詞程式碼n和“人(ren)”的聲母並在一起。

ns 地名 名詞程式碼n和處所詞程式碼s並在一起。

nt 機構團體 “團”的聲母為t,名詞程式碼n和t並在一起。

nz 其他專名 “專”的聲母的第1個字母為z,名詞程式碼n和z並在一起。

o 擬聲詞 取英語擬聲詞onomatopoeia的第1個字母。

p 介詞 取英語介詞prepositional的第1個字母。

q 量詞 取英語quantit的第1個字母。

r 代詞 取英語代詞pronoun的第2個字母,因p已用於介詞。

s 處所詞 取英語space的第1個字母。

Tg 時語素 時間詞性語素。時間詞程式碼為t,在語素的程式碼g前面置以T。

t 時間詞 取英語time的第1個字母。

u 助詞 取英語助詞auxiliary

Vg 動語素 動詞性語素。動詞程式碼為v。在語素的程式碼g前面置以V。

v 動詞 取英語動詞verb的第一個字母。

vd 副動詞 直接作狀語的動詞。動詞和副詞的程式碼並在一起。

vn 名動詞 指具有名詞功能的動詞。動詞和名詞的程式碼並在一起。

w 標點符號

x 非語素字 非語素字只是一個符號,字母x通常用於代表未知數、符號。

y 語氣詞 取漢字“語”的聲母。

z 狀態詞 取漢字“狀”的聲母的前一個字母。
-------------------------------------------------------------------------------
a:        形容詞
b:        區別詞
c:        連詞
d:        副詞
e:        嘆詞
g:        語素字
h:        前接成分
i:        習用語
j:        簡稱
k:        後接成分
m:        數詞
n:        普通名詞
nd:        方位名詞
nh:        人名
ni:        機構名
nl:        處所名詞
ns:        地名
nt:        時間詞
nz:        其他專名
o:        擬聲詞
p:        介詞
q:        量詞
r:        代詞
u:        助詞
v:        動詞
wp:        標點符號
ws:        字串
x:        非語素字

相關推薦

ICTCLAS 漢語詞性標註 中科院

Ag 形語素 形容詞性語素。形容詞程式碼為a,語素程式碼g前面置以A。 a 形容詞 取英語形容詞adjective的第1個字母。 ad 副形詞 直接作狀語的形容詞。形容詞程式碼a和副詞程式碼d並在一起。 an 名形詞 具有名詞功能的形容詞。形容詞程式碼a和名詞程式碼n並在一起。 b 區別詞 取漢字“別”的

計算所詞性標註

說明 計算所漢語詞性標記集(共計99個,22個一類,66個二類,11個三類)主要用於中國科學院計算技術研究所研製的漢語詞法分析器、句法分析器和漢英機器翻譯系統。本標記集主要參考了以下詞性標記集: 1. 北大《人民日報》語料庫詞性標記集; 2.

北大詞性標註

程式碼    名稱             幫助記憶的詮釋    Ag     形語素     形容詞性語素。形容詞程式碼為a,語素程式碼g前面置以A。    a       形容詞      取英語形容詞adjective的第1個字母。 ad 副形詞 直接作狀語的形容詞。

ansj中的一些詞性標註

摘錄一些關於ansj的一些詞性標註集,方便程式設計對文字的處理。 1. 名詞 (1個一類,7個二類,5個三類) n 名詞  nr 人名  nr1 漢語姓氏  nr2 漢語名字  nrj 日語人名  nrf 音譯人名  ns 地名  nsf 音譯地名  nt 機構團體

哈工大ltp詞性標註列表和ICTCLAS詞性列表

哈工大ltp詞性列表 Tag Description Example a adjective 美麗 b other noun-modifier 大型, 西式 c conjunction 和, 雖然 d adverb 很

Tensorflow進行POS詞性標註NER實體識別 - 構建LSTM網絡進行序列化標註

labels rop tac val when optimize 添加 implement verbose http://blog.csdn.net/rockingdingo/article/details/55653279 Github下載完整代碼 https://gi

轉:CRF++詞性標註

2.7 github nes ngs pla 計算 try 可能 tag CRF++詞性標註 2016-02-28 分類:NLP 閱讀(5558) 評論(19) 訓練和測試的語料都是人民日報98年標註語料,訓練和測試比例是10:1,直接通過CRF++標註詞性的準確率:0.

自然語言處理---用隱馬爾科夫模型(HMM)實現詞性標註---1998年1月份人民日報語料---learn---test---evaluation---Demo---java實現

fileinput 流程 n) 一次 tostring model pen mem rbd 先放上一張Demo的測試圖 測試的句子及每個分詞的詞性標註為: 目前/t 這/rzv 條/q 高速公路/n 之間/f 的/ude1 路段/n 已/d 緊急/a 封閉/v 。/

一套準確率高且效率高的分詞、詞性標註工具-thulac

軟體簡介 THULAC(THU Lexical Analyzer for Chinese)由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包,具有中文分詞和詞性標註功能。THULAC具有如下幾個特點: 能力強。利用我們整合的目前世界上規模最大的人工分詞和詞性標註中文語料庫(

斯坦福大學-自然語言處理入門 筆記 第十二課 詞性標註(Part-of-speech tagging)

一、詞性(part-of-speech)介紹 詞性:名詞(Nouns),動詞(Verbs),形容詞(Adjectives), 副詞(Adverbs)等等就是我們想要研究的詞性 我們可以把詞性分為開放類(open class)和閉合類(closed class)。

Stanford-corenlp 英文詞性標註

一、環境配置 1.下載官網的NLP相關包 將下載下來的stanford-corenlp-full-2018-02-27解壓並將下載英文的jar檔案 stanford-english-corenlp-2018-02-27-models.jar放到該目錄下。 網址:https://sta

【NLP】【四】jieba原始碼分析之詞性標註

【一】詞性標註 詞性標註分為2部分,首先是分詞,然後基於分詞結果做詞性標註。 【二】jieba的詞性標註程式碼流程詳解 1. 程式碼位置 jieba/posseg/_init_.py 2. 流程分析 def cut(sentence, HMM=True): """

自然語言處理基礎技術之詞性標註實戰

宣告:轉載請註明出處,謝謝:https://blog.csdn.net/m0_37306360/article/details/84553960 另外,更多實時更新的個人學習筆記分享,請關注: 知乎:https://www.zhihu.com/people/yuquanle/columns

自然語言處理基礎技術之詞性標註

宣告:轉載請註明出處,謝謝:https://blog.csdn.net/m0_37306360/article/details/84502176 另外,更多實時更新的個人學習筆記分享,請關注: 知乎:https://www.zhihu.com/people/yuquanle/columns 公眾號:

python 自然語言處理 詞性標註

一、詞性標註簡介 import nltk text1=nltk.word_tokenize("It is a pleasant day today") print(nltk.pos_tag(text1)) Number Tag

HMM與分詞、詞性標註、命名實體識別

HMM(隱馬爾可夫模型)是用來描述隱含未知引數的統計模型,舉一個經典的例子:一個東京的朋友每天根據天氣{下雨,天晴}決定當天的活動{公園散步,購物,清理房間}中的一種,我每天只能在twitter上看到她發的推“啊,我前天公園散步、昨天購物、今天清理房間了!”,那麼我可以根據她

pyhanlp 詞性標註(正篇)

詞性標註 在HanLP的readme中有這樣的一段話 在之前的分詞部分,我們已經發現了,在分詞器中,預設是開啟詞性標註的,甚至想要獲得沒有詞性標註的list還需要使用, HanLP.Config.ShowTermNature = False語句或者想辦法從te

jieba詞性標註與分詞結果不一致(提取關鍵詞)

1、 先描述下現象 >>> aa='北京時間月日晚劉強東的刑辯律師在接受澎湃新聞記者電話採訪時表示劉強東涉嫌 強姦一案中的指控與證據是有出入的一旦調查結束證據將會披露給公眾證明他是無罪的' =======過濾詞性,能識別“劉強東” >>>

jieba分詞-詞性標註

結巴分詞4--詞性標註 作者:zhbzz2007 出處:http://www.cnblogs.com/zhbzz2007  1 簡介 詞性(part-of-speech)是詞彙基本的語法範疇,通常也稱為詞類,主要用來描述一個詞在上下文的作用。例如,描述一個概念的詞就是名詞,在下

python_NLP實戰之詞性標註與命名實體識別

一、詞性標註 jieba詞性標註結合規則和統計的方法,詞典匹配和HMM共同作用 二、命名實體識別 HMM將分詞作為字標記來解決,其中有兩條獨立性假設 1、輸出觀察值之間相互獨立 2、狀態轉移過程中,當前狀態只與前一狀態有關 CRF也是一種用來標記和切分序列化資料的統計