1. 程式人生 > >ansj 分詞系統的詞性

ansj 分詞系統的詞性

最近做nlp,需要詞性,特地查了下保留下i下來

漢語文字詞性標註標記集

# 1. 名詞  (1個一類,7個二類,5個三類)
名詞分為以下子類:
n 名詞
nr 人名
nr1 漢語姓氏
nr2 漢語名字
nrj 日語人名
nrf 音譯人名
ns 地名
nsf 音譯地名
nt 機構團體名
nz 其它專名
nl 名詞性慣用語
ng 名詞性語素
nw 新詞
# 2. 時間詞(1個一類,1個二類)
t 時間詞
tg 時間詞性語素
# 3. 處所詞(1個一類)
s 處所詞
# 4. 方位詞(1個一類)
f 方位詞
# 5. 動詞(1個一類,9個二類)
v 動詞
vd 副動詞
vn 名動詞
vshi 動詞“是”
vyou 動詞“有”
vf 趨向動詞
vx 形式動詞
vi 不及物動詞(內動詞)
vl 動詞性慣用語
vg 動詞性語素
# 6. 形容詞(1個一類,4個二類)
a 形容詞
ad 副形詞
an 名形詞
ag 形容詞性語素
al 形容詞性慣用語
# 7. 區別詞(1個一類,2個二類)
b 區別詞
bl 區別詞性慣用語
# 8. 狀態詞(1個一類)
z 狀態詞
# 9. 代詞(1個一類,4個二類,6個三類)
r 代詞
rr 人稱代詞
rz 指示代詞
rzt 時間指示代詞
rzs 處所指示代詞
rzv 謂詞性指示代詞
ry 疑問代詞
ryt 時間疑問代詞
rys 處所疑問代詞
ryv 謂詞性疑問代詞
rg 代詞性語素
# 10. 數詞(1個一類,1個二類)
m 數詞
mq 數量詞
# 11. 量詞(1個一類,2個二類)
q 量詞
qv 動量詞
qt 時量詞
# 12. 副詞(1個一類)
d 副詞
# 13. 介詞(1個一類,2個二類)
p 介詞
pba 介詞“把”
pbei 介詞“被”
# 14. 連詞(1個一類,1個二類)
c 連詞
 cc 並列連詞
# 15. 助詞(1個一類,15個二類)
u 助詞
uzhe 著
ule 了 嘍
uguo 過
ude1 的 底
ude2 地
ude3 得
usuo 所
udeng 等 等等 云云
uyy 一樣 一般 似的 般
udh 的話
uls 來講 來說 而言 說來
uzhi 之
ulian 連 (“連小學生都會”)
# 16. 嘆詞(1個一類)
e 嘆詞
# 17. 語氣詞(1個一類)
y 語氣詞(delete yg)
# 18. 擬聲詞(1個一類)
o 擬聲詞
# 19. 字首(1個一類)
h 字首
# 20. 字尾(1個一類)
k 字尾
# 21. 字串(1個一類,2個二類)
x 字串
 xx 非語素字
 xu 網址URL
# 22. 標點符號(1個一類,16個二類)
w 標點符號
wkz 左括號,全形:( 〔  [  {  《 【  〖〈   半形:( [ { <
wky 右括號,全形:) 〕  ] } 》  】 〗 〉 半形: ) ] { >
wyz 左引號,全形:“ ‘ 『 
wyy 右引號,全形:” ’ 』
wj 句號,全形:。
ww 問號,全形:? 半形:?
wt 歎號,全形:! 半形:!
wd 逗號,全形:, 半形:,
wf 分號,全形:; 半形: ;
wn 頓號,全形:、
wm 冒號,全形:: 半形: :
ws 省略號,全形:……  …
wp 破折號,全形:——   --   ——-   半形:---  ----
wb 百分號千分號,全形:% ‰   半形:%
wh 單位符號,全形:¥ $ £  °  ℃  半形:$

相關推薦

ansj 系統詞性

最近做nlp,需要詞性,特地查了下保留下i下來 漢語文字詞性標註標記集 # 1. 名詞  (1個一類,7個二類,5個三類) 名詞分為以下子類: n 名詞 nr 人名 nr1 漢語姓氏 nr2 漢語名字 nrj 日語人名 nrf 音譯人名 ns 地名 nsf 音譯地名 nt

一套準確率高且效率高的詞性標註工具-thulac

軟體簡介 THULAC(THU Lexical Analyzer for Chinese)由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包,具有中文分詞和詞性標註功能。THULAC具有如下幾個特點: 能力強。利用我們整合的目前世界上規模最大的人工分詞和詞性標註中文語料庫(

ansj原理

    ansj第一步會進行原子切分和全切分,並且是在同時進行的。所謂原子,是指短句中不可分割的最小語素單位。例如,一個漢字就是一個原子。全切分,就是把一句話中的所有詞都找出來,只要是字典中有的就找出來。例如,“提高中國人生活水平”包含的詞有:提高、高中、中國、國人、人生、生活、活水、水平

改進的中科院系統NLPIR程式碼(加入使用者詞典,去停用,檔案讀寫)+情感分析字典包+工具包+論文包

NLPIR分詞,加入使用者詞典,去停用詞,檔案讀寫等 原始碼下載地址 優化的分詞系統程式碼 原始碼下載地址 NLPIR分詞系統 優化的分詞系統程式碼 以下是核心程式碼 完整程式碼可以直接執行分詞,點我跳轉 public cl

HMM與詞性標註、命名實體識別

HMM(隱馬爾可夫模型)是用來描述隱含未知引數的統計模型,舉一個經典的例子:一個東京的朋友每天根據天氣{下雨,天晴}決定當天的活動{公園散步,購物,清理房間}中的一種,我每天只能在twitter上看到她發的推“啊,我前天公園散步、昨天購物、今天清理房間了!”,那麼我可以根據她

網站中用lucene全文搜尋引擎和ansj外掛之ansj配置檔案的正確寫法

不介紹: 怎麼下載?怎麼使用?下載後都有demo的。 這裡只說關鍵的: 1.把lucene的lucene-analyzers-common-7.4.0.jar、lucene-core-7.4.0.jar和lucene-queryparser-7.4.0.jar匯

Ansj教程步驟

摘要: ansj是一個基於n-Gram+CRF+HMM的中文分詞的java實現. ansj分詞速度達到每秒鐘大約200萬字左右(mac air下測試),準確率能達到96%以上 Ansj目前實現了.中文分詞.詞性識別. 中文姓名識別 . 使用者自定義詞典,關鍵字提

jieba工具詞性標記含義

jieba分詞詞性標記含義   jieba為自然語言語言中常用工具包,jieba不僅僅是一個分詞工具,它還具有對分詞的詞性進行標註的功能,詞性類別如下: Ag 形語素 形容詞性語素。形容詞程式碼為 a,語素程式碼g前面置以A

solr7.2.1整合ansj

       最近剛離職,為了儘快找到好的工作,不敢不好好學習,查漏補缺。之前的工作滿打滿算做了11個月,主要內容是搜尋業務介面的開發,主要使用的是solr引擎,工作期間由於忙於業務並沒有對solr的基礎進行過仔細的學習,這兩天先從solr

用pyltp做詞性標註、ner

工具:win10、python2.7 主要參考官方文件 http://pyltp.readthedocs.io/zh_CN/latest/api.html# http://ltp.readthedocs.io/zh_CN/latest/install.html 1、安裝

文字處理(二)詞頻統計,jieba詞性標註,snownlp情感分析

這一篇接著上一篇處理後的資料進行操作,按照(一)中的步驟,這事應該將文字資料每一行中的高頻的正面詞去掉,因為多數是描述身體健康的短句,只有少數是描述脾臟檢查異常的,所以嘗試刪除掉描述身體健康的短句,只留下少數檢查異常的資料,對異常的檢查資料進行特徵提取,這是思路。所以這一篇目

Python 文字挖掘:jieba中文詞性標註

#! /usr/bin/env python2.7 #coding=utf-8 import jieba import jieba.posseg #需要另外載入一個詞性標註模組 string = '其實大家買手機就是看個心情,沒必要比來比去的。' seg = jieba.posseg.cut(string

Deep Learning 在中文詞性標註任務中的應用

開源軟體包 SENNA 和 word2vec 中都用到了詞向量(distributed word representation),當時我就在想,對於我們的中文,是不是也類似地有字向

結巴4--詞性標註

1 簡介 詞性(part-of-speech)是詞彙基本的語法範疇,通常也稱為詞類,主要用來描述一個詞在上下文的作用。例如,描述一個概念的詞就是名詞,在下文引用這個名詞的詞就是代詞。有的詞性經常會出現一些新的詞,例如名詞,這樣的詞性叫做開放式詞性。另外一些詞性

清華大學thulac詞性標註程式碼理解

     清華大學的thulac中分分詞詞法包,包含有中文分詞和詞性標註,從測試精度和速度看,效果還不錯,github上有提供c++和python程式碼,c++程式碼包含有訓練和測試程式碼,python程式碼只有測試程式碼,速度也較慢,github地址為:https://g

python3進行中文詞性標註

配置python環境(win10) 雙擊安裝,我安裝在了D:\python 中。 新增環境變數。 在我的電腦處右鍵 -> 高階系統設定 -> 環境變數 -> 系統變數 ->

用於solr5的ansj外掛擴充套件

原始碼: https://github.com/NLPchina/ansj_seg jar包: http://maven.nlpcn.org/org/ansj/ http://maven.nlpcn.org/org/nlpcn/nlp-lang http://maven.

jieba(結巴)詞性簡介

在做實際專案中,經常用到文字分析過程中的結巴分詞功能,為了更好的得到結果,需要限定分詞詞性,接替可參見之間的部落格: http://blog.csdn.net/hhtnan/article/detai

【原創】中文系統 ICTCLAS2015 的JAVA封裝和多執行緒執行(附程式碼)

  本文針對的問題是 ICTCLAS2015 的多執行緒分詞,為了實現多執行緒做了簡單的JAVA封裝。如果有需要可以自行進一步封裝其它介面。   首先ICTCLAS2015的傳送門(http://ictclas.nlpir.org/),其對中文分詞做的比較透徹,而且有一定的可調式性。但是應用到實際開發中的話

中科院系統(NLPIR)常見錯誤處理JAVA

沒有熟悉這個分詞器用起來真的讓人很崩潰,遇到bug都不知道怎麼辦,但是如果熟悉了用起來還是蠻得心應手的,是一個很不錯的分詞工具哦!強烈推薦! 下載地址:http://ictclas.nlpir.org/downloads,下載最新的NLPIR/ICTCLAS2