jieba分詞與詞性標註自定義詞典支援特殊字元

阿新 • • 發佈：2019-02-13

jieba分詞可以自定義詞表和詞庫。但是目前版本尚不支援特殊字元（如空格等）。

參考github上的網友們的解答，總結修改方法如下：

1、修改目錄（我的為windows系統，使用miniconda，路徑供參考，具體則需要根據自己實際情況進行修改）：

檔案路徑 D:\ProgramData\Miniconda3\envs\python36\Lib\site-packages\jieba

2、修改內容

修改jieba根目錄包括init和詞表
修改posseg目錄包括init
參考網站 https://github.com/fxsjy/jieba/issues/423
示例與程式碼可參照我的github：https://github.com/q759729997/jieba_special_character

開啟預設詞典（根目錄）或自定義詞典，把所有用來間隔詞頻和詞性的空格間隔符改成@@
（選用@@是因為一般關鍵詞裡遇到這個分隔符的機率比較小吧）

繼續，開啟jieba根目錄下init.py

搜尋
re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._]+)", re.U)
改成
re_han_default = re.compile("(.+)", re.U)
搜尋
re_userdict = re.compile('^(.+?)( [0-9]+)?( [a-z]+)?$', re.U)
改成
re_userdict = re.compile('^(.+?)(\u0040\u0040[0-9]+)?(\u0040\u0040[a-z]+)?$', re.U)
搜尋
word, freq = line.split(' ')[:2]
改成
word, freq = line.split('\u0040\u0040')[:2]
補充：若用的全模式繼續改。
搜尋
re_han_cut_all = re.compile("([\u4E00-\u9FD5]+)", re.U)
改成
re_han_cut_all = re.compile("(.+)", re.U)

3、測試程式碼

import jieba
import jieba.posseg as pseg

jieba.add_word('奧迪Q7',tag='car_type')
jieba.add_word('A3 e-tron',tag='car_type')
jieba.add_word('奧迪R8',tag='car_type')

line = '奧迪Q7 e-tron是奧迪系列的車。A3 e-tron也是車。奧迪R8是另一個車。'
line_txt_list = []
words = pseg.cut(line)
for word, flag in words:
    line_txt_list.append('%s %s' % (word, flag))
print('|||'.join(line_txt_list))

4、測試結果

奧迪Q7 car_type|||  x|||e eng|||- x|||tron eng|||是 v|||奧迪 nz|||系列 q|||的 uj|||車 n|||。 x|||A3 e-tron car_type|||也 d|||是 v|||車 n|||。 x|||奧迪R8 car_type|||是 v|||另 r|||一個 m|||車 n|||。 x

jieba分詞與詞性標註自定義詞典支援特殊字元

jieba分詞可以自定義詞表和詞庫。但是目前版本尚不支援特殊字元（如空格等）。參考github上的網友們的解答，總結修改方法如下：1、修改目錄（我的為windows系統，使用miniconda，路徑供參考，具體則需要根據自己實際情況進行修改）：檔案路徑 D:\ProgramD

文字處理（二）詞頻統計,jieba分詞，詞性標註，snownlp情感分析

這一篇接著上一篇處理後的資料進行操作，按照（一）中的步驟，這事應該將文字資料每一行中的高頻的正面詞去掉，因為多數是描述身體健康的短句，只有少數是描述脾臟檢查異常的，所以嘗試刪除掉描述身體健康的短句，只留下少數檢查異常的資料，對異常的檢查資料進行特徵提取，這是思路。所以這一篇目

pyhanlp 分詞與詞性標註

pyhanlp中的分詞器簡介 pyhanlp實現的分詞器有很多，同時pyhanlp獲取hanlp中分詞器也有兩種方式第一種是直接從封裝好的hanlp類中獲取，這種獲取方式一共可以獲取五種分詞器，而現在預設的就是第一種維特比分詞器維特比 (viterbi)：

jieba分詞及詞性標註

# ============================================================================= # jieba分詞 #import jieba # f1 =open("weibo.txt") # f2 =

自然語言處理工具pyhanlp分詞與詞性標註

Pyhanlp分詞與詞性標註的相關內容記得此前是有分享過的。可能時間太久記不太清楚了。以下文章是分享自“baiziyu”所寫（小部

HMM與分詞、詞性標註、命名實體識別

HMM（隱馬爾可夫模型）是用來描述隱含未知引數的統計模型，舉一個經典的例子：一個東京的朋友每天根據天氣{下雨，天晴}決定當天的活動{公園散步,購物,清理房間}中的一種，我每天只能在twitter上看到她發的推“啊，我前天公園散步、昨天購物、今天清理房間了！”，那麼我可以根據她

Python 文字挖掘：jieba中文分詞和詞性標註

#! /usr/bin/env python2.7 #coding=utf-8 import jieba import jieba.posseg #需要另外載入一個詞性標註模組 string = '其實大家買手機就是看個心情，沒必要比來比去的。' seg = jieba.posseg.cut(string

HMM演算法-viterbi演算法的實現及與分詞、詞性標註、命名實體識別的引用

轉自：http://www.hankcs.com/nlp/hmm-and-segmentation-tagging-named-entity-recognition.html HMM（隱馬爾可夫模型）是用來描述隱含未知引數的統計模型，舉一個經典的例子：一個東京的朋友每天

一套準確率高且效率高的分詞、詞性標註工具-thulac

軟體簡介 THULAC（THU Lexical Analyzer for Chinese）由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包，具有中文分詞和詞性標註功能。THULAC具有如下幾個特點：能力強。利用我們整合的目前世界上規模最大的人工分詞和詞性標註中文語料庫（

jieba分詞工具詞性標記含義

jieba分詞詞性標記含義 jieba為自然語言語言中常用工具包，jieba不僅僅是一個分詞工具，它還具有對分詞的詞性進行標註的功能，詞性類別如下： Ag 形語素形容詞性語素。形容詞程式碼為 a，語素程式碼ｇ前面置以A

jieba分詞與worldcloud詞雲

中文分詞的優秀庫。安裝：pip install jieba 主要有三種模式，但是最主要有一個函式模式：精確模式：把文字精確的切分開，不存在冗餘單詞　　全模式：把文字中所有可能的詞語都掃描出來，有冗餘　　搜尋引擎模式：在精確模式上，對長詞再次切分函式：jieba.lcut(str)：精確模

用pyltp做分詞、詞性標註、ner

工具：win10、python2.7 主要參考官方文件 http://pyltp.readthedocs.io/zh_CN/latest/api.html# http://ltp.readthedocs.io/zh_CN/latest/install.html 1、安裝

Deep Learning 在中文分詞和詞性標註任務中的應用

開源軟體包 SENNA 和 word2vec 中都用到了詞向量（distributed word representation），當時我就在想，對於我們的中文，是不是也類似地有字向

結巴分詞4--詞性標註

1 簡介詞性（part-of-speech）是詞彙基本的語法範疇，通常也稱為詞類，主要用來描述一個詞在上下文的作用。例如，描述一個概念的詞就是名詞，在下文引用這個名詞的詞就是代詞。有的詞性經常會出現一些新的詞，例如名詞，這樣的詞性叫做開放式詞性。另外一些詞性

清華大學thulac分詞和詞性標註程式碼理解

清華大學的thulac中分分詞詞法包，包含有中文分詞和詞性標註，從測試精度和速度看，效果還不錯，github上有提供c++和python程式碼，c++程式碼包含有訓練和測試程式碼，python程式碼只有測試程式碼，速度也較慢，github地址為：https://g

python3進行中文分詞和詞性標註

配置python環境(win10) 雙擊安裝，我安裝在了D:\python 中。新增環境變數。在我的電腦處右鍵 -> 高階系統設定 -> 環境變數 -> 系統變數 ->

jieba分詞、自定義詞典提取高頻詞、詞性標註及獲取詞的位置

準備工作安裝anaconda環境，anaconda環境是一個強大的科學計算環境，自帶python2.7和3.4兩個版本以及很多科學計算庫安裝完成後配置環境變數，然後在終端用pip install jieba安裝結巴分詞庫 jieba介紹支援

jieba分詞-詞性標註

結巴分詞4--詞性標註作者：zhbzz2007 出處：http://www.cnblogs.com/zhbzz2007 1 簡介詞性（part-of-speech）是詞彙基本的語法範疇，通常也稱為詞類，主要用來描述一個詞在上下文的作用。例如，描述一個概念的詞就是名詞，在下

python的jieba分詞詞性標註

支援自定義詞典 Python 2.x 下的安裝全自動安裝：easy_install jieba 或者 pip install jieba 手動安裝：將jieba目錄放置於當前目錄或者site-packages目錄通過import jieba 來引用（第一次import時需要構建Trie樹，需要幾

jieba分詞增加自定義詞表

在使用jieba分詞時經常會發現一些未登入詞，因此增加領域詞表就變得很重要，下面提供增加幾種途徑： 1、領域權威詞彙字典 2、搜狗輸入法領域詞庫、百度輸入法領域詞庫然後這三種類型的使用者此表取個並集即可，在Python中使用集合操作即可，例如，三種字典均為列表（lis

jieba分詞與詞性標註自定義詞典支援特殊字元

相關推薦