1. 程式人生 > >jieba之posseg(詞性標註)

jieba之posseg(詞性標註)

程式碼:

import jieba.posseg as pseg
import jieba

#詞性標註也叫詞類標註。POS tagging是part-of-speech tagging的縮寫

string = "我愛北京天安門"
words = pseg.cut(string)
print("===" * 20)
# 返回的是生成器哦!
print(words)

# 該如何列印呢?
for word,flag in words:
    print("%s  %s"%(word, flag))

執行結果:

============================================================
<generator object cut at 0x10b098eb8>
============================================================
我  r
愛  v
北京  ns
天安門  nnn

程式碼:

# 動態新增詞典
# 從新定義詞性
jieba.add_word("天安門", tag="nnn")
words = pseg.cut(string)
for word,flag in words:
    # 天安門的詞性由“ns”變成了“nnn”
    print("%s %s"%(word,flag))

執行結果:

我 r
愛 v
北京 ns
天安門 nnn