Jieba分詞詞性標註以及詞性說明
阿新 • • 發佈:2019-01-23
import jieba import jieba.analyse import jieba.posseg def dosegment_all(sentence): ''' 帶詞性標註,對句子進行分詞,不排除停詞等 :param sentence:輸入字元 :return: ''' sentence_seged = jieba.posseg.cut(sentence.strip()) outstr = '' for x in sentence_seged: outstr+="{}/{},".format(x.word,x.flag) return outstr
Example:
蘋果官網iPhone降價!再次驚覺了神網友們的才華 一群同學
蘋果/n,官網/n,iPhone/n,降價/n,!/x,再次/d,驚覺/a,了/ul,神/n,網友/n,們/k,的/uj,才華/nr, /x,一群/m,同學/n,
Ag | 形語素 | 形容詞性語素。形容詞程式碼為 a,語素程式碼g前面置以A。 |
a | 形容詞 | 取英語形容詞 adjective的第1個字母。 |
ad | 副形詞 | 直接作狀語的形容詞。形容詞程式碼 a和副詞程式碼d並在一起。 |
an | 名形詞 | 具有名詞功能的形容詞。形容詞程式碼 a和名詞程式碼n並在一起。 |
b | 區別詞 | 取漢字“別”的聲母。 |
c | 連詞 | 取英語連詞 conjunction的第1個字母。 |
dg | 副語素 | 副詞性語素。副詞程式碼為 d,語素程式碼g前面置以D。 |
d | 副詞 | 取 adverb的第2個字母,因其第1個字母已用於形容詞。 |
e | 嘆詞 | 取英語嘆詞 exclamation的第1個字母。 |
f | 方位詞 | 取漢字“方” |
g | 語素 | 絕大多數語素都能作為合成詞的“詞根”,取漢字“根”的聲母。 |
h | 前接成分 | 取英語 head的第1個字母。 |
i | 成語 | 取英語成語 idiom的第1個字母。 |
j | 簡稱略語 | 取漢字“簡”的聲母。 |
k | 後接成分 | |
l | 習用語 | 習用語尚未成為成語,有點“臨時性”,取“臨”的聲母。 |
m | 數詞 | 取英語 numeral的第3個字母,n,u已有他用。 |
Ng | 名語素 | 名詞性語素。名詞程式碼為 n,語素程式碼g前面置以N。 |
n | 名詞 | 取英語名詞 noun的第1個字母。 |
nr | 人名 | 名詞程式碼 n和“人(ren)”的聲母並在一起。 |
ns | 地名 | 名詞程式碼 n和處所詞程式碼s並在一起。 |
nt | 機構團體 | “團”的聲母為 t,名詞程式碼n和t並在一起。 |
nz | 其他專名 | “專”的聲母的第 1個字母為z,名詞程式碼n和z並在一起。 |
o | 擬聲詞 | 取英語擬聲詞 onomatopoeia的第1個字母。 |
p | 介詞 | 取英語介詞 prepositional的第1個字母。 |
q | 量詞 | 取英語 quantity的第1個字母。 |
r | 代詞 | 取英語代詞 pronoun的第2個字母,因p已用於介詞。 |
s | 處所詞 | 取英語 space的第1個字母。 |
tg | 時語素 | 時間詞性語素。時間詞程式碼為 t,在語素的程式碼g前面置以T。 |
t | 時間詞 | 取英語 time的第1個字母。 |
u | 助詞 | 取英語助詞 auxiliary |
vg | 動語素 | 動詞性語素。動詞程式碼為 v。在語素的程式碼g前面置以V。 |
v | 動詞 | 取英語動詞 verb的第一個字母。 |
vd | 副動詞 | 直接作狀語的動詞。動詞和副詞的程式碼並在一起。 |
vn | 名動詞 | 指具有名詞功能的動詞。動詞和名詞的程式碼並在一起。 |
w | 標點符號 | |
x | 非語素字 | 非語素字只是一個符號,字母 x通常用於代表未知數、符號。 |
y | 語氣詞 | 取漢字“語”的聲母。 |
z | 狀態詞 | 取漢字“狀”的聲母的前一個字母。 |
un | 未知詞 | 不可識別詞及使用者自定義片語。取英文Unkonwn首兩個字母。(非北大標準,CSW分詞中定義) |