jieba/pyhanlp分詞簡單操作
阿新 • • 發佈:2018-11-09
jieba/pyhanlp分詞簡單操作
content = "現如今,機器學習和深度學習帶動人工智慧飛速的發展,並在圖片處理、語音識別領域取得巨大成功。" content = jieba.cut(content, cut_all=False) print('/'.join(content)) content2 = "現如今,機器學習和深度學習帶動人工智慧飛速的發展,並在圖片處理、語音識別領域取得巨大成功。" content2 = jieba.cut(content2, cut_all=True) print('/'.join(content2)) content3 = "現如今,機器學習和深度學習帶動人工智慧飛速的發展,並在圖片處理、語音識別領域取得巨大成功。" content3 = jieba.cut_for_search(content3) print('/'.join(content3)) content4 = "現如今,機器學習和深度學習帶動人工智慧飛速的發展,並在圖片處理、語音識別領域取得巨大成功。" content4 = jieba.lcut(content4, cut_all=False) print(content4) import jieba.posseg as psg content5 = "現如今,機器學習和深度學習帶動人工智慧飛速的發展,並在圖片處理、語音識別領域取得巨大成功。" content5 = psg.lcut(content5) print([(x.word,x.flag) for x in content5]) from collections import Counter top5 = Counter(content5).most_common(4) print(top5) txt = "鐵甲網是中國最大的工程機械交易平臺。" jieba.add_word('鐵甲網') print(jieba.lcut(txt)) from pyhanlp import * content6 = '現如今,機器學習和深度學習帶動人工智慧飛速的發展,並在圖片處理、語音識別領域取得巨大成功。' print(HanLP.segment(content6)) txt = "鐵甲網是中國最大的工程機械交易平臺。" CustomDictionary.add('鐵甲網') CustomDictionary.insert('機械工程', 'nz 1024') CustomDictionary.add('交易平臺', 'nz 1024 n 1') print(HanLP.segment(txt))