jieba之posseg(詞性標註)
阿新 • • 發佈:2019-01-01
程式碼:
import jieba.posseg as pseg
import jieba
#詞性標註也叫詞類標註。POS tagging是part-of-speech tagging的縮寫
string = "我愛北京天安門"
words = pseg.cut(string)
print("===" * 20)
# 返回的是生成器哦!
print(words)
# 該如何列印呢?
for word,flag in words:
print("%s %s"%(word, flag))
執行結果:
============================================================ <generator object cut at 0x10b098eb8> ============================================================ 我 r 愛 v 北京 ns 天安門 nnn
程式碼:
# 動態新增詞典
# 從新定義詞性
jieba.add_word("天安門", tag="nnn")
words = pseg.cut(string)
for word,flag in words:
# 天安門的詞性由“ns”變成了“nnn”
print("%s %s"%(word,flag))
執行結果:
我 r
愛 v
北京 ns
天安門 nnn