1. 程式人生 > >結巴分詞詞性

結巴分詞詞性

jieba為自然語言語言中常用工具包,jieba具有對分詞的詞性進行標註的功能,詞性類別如下:

Ag

形語素

形容詞性語素。形容詞程式碼為 a,語素程式碼g前面置以A。

a

形容詞

取英語形容詞 adjective的第1個字母。

ad

副形詞

直接作狀語的形容詞。形容詞程式碼 a和副詞程式碼d並在一起。

an

名形詞

具有名詞功能的形容詞。形容詞程式碼 a和名詞程式碼n並在一起。

b

區別詞

取漢字“別”的聲母。

c

連詞

取英語連詞 conjunction的第1個字母。
dg

副語素

副詞性語素。副詞程式碼為 d,語素程式碼g前面置以D。

d

副詞

取 adverb的第2個字母,因其第1個字母已用於形容詞。

e

嘆詞

取英語嘆詞 exclamation的第1個字母。

f

方位詞

取漢字“方”

g

語素

絕大多數語素都能作為合成詞的“詞根”,取漢字“根”的聲母。

h

前接成分

取英語 head的第1個字母。

i

成語

取英語成語 idiom的第1個字母。

j

簡稱略語

取漢字“簡”的聲母。

k

後接成分

l

習用語

習用語尚未成為成語,有點“臨時性”,取“臨”的聲母。

m

數詞

取英語 numeral的第3個字母,n,u已有他用。

Ng

名語素

名詞性語素。名詞程式碼為 n,語素程式碼g前面置以N。

n

名詞

取英語名詞 noun的第1個字母。

nr

人名

名詞程式碼 n和“人(ren)”的聲母並在一起。

ns

地名

名詞程式碼 n和處所詞程式碼s並在一起。

nt

機構團體

“團”的聲母為 t,名詞程式碼n和t並在一起。

nz

其他專名

“專”的聲母的第 1個字母為z,名詞程式碼n和z並在一起。

o

擬聲詞

取英語擬聲詞 onomatopoeia的第1個字母。

p

介詞

取英語介詞 prepositional的第1個字母。

q

量詞

取英語 quantity的第1個字母。

r

代詞

取英語代詞 pronoun的第2個字母,因p已用於介詞。

s

處所詞

取英語 space的第1個字母。

tg

時語素

時間詞性語素。時間詞程式碼為 t,在語素的程式碼g前面置以T。

t

時間詞

取英語 time的第1個字母。

u

助詞

取英語助詞 auxiliary

vg

動語素

動詞性語素。動詞程式碼為 v。在語素的程式碼g前面置以V。

v

動詞

取英語動詞 verb的第一個字母。

vd

副動詞

直接作狀語的動詞。動詞和副詞的程式碼並在一起。

vn

名動詞

指具有名詞功能的動詞。動詞和名詞的程式碼並在一起。

w

標點符號

x

非語素字

非語素字只是一個符號,字母 x通常用於代表未知數、符號。

y

語氣詞

取漢字“語”的聲母。

z

狀態詞

取漢字“狀”的聲母的前一個字母。

un

未知詞

不可識別詞及使用者自定義片語。取英文Unkonwn首兩個字母。(非北大標準,CSW分詞中定義)

相關推薦

結巴+詞性標註(電子病歷資料)

結巴分詞+詞性標註 方法一:只使用python中的jieba分詞以及詞性標註工具 示例文字: 加入自定義詞典 程式碼 import jieba import jieba.posseg as pseg import re filename='seglist

深度學習----NLP結巴詞性大全

jieba為自然語言語言中常用工具包,jieba具有對分詞的詞性進行標註的功能,詞性類別如下: 格式 詞性 解釋 Ag 形語素 形容詞性語素。形容詞程式碼為 a,語素程式碼

結巴詞性

jieba為自然語言語言中常用工具包,jieba具有對分詞的詞性進行標註的功能,詞性類別如下: Ag 形語素 形容詞性語素。形容詞程式碼為 a,語素程式碼g前面置以A。 a 形容詞

結巴4--詞性標註

1 簡介 詞性(part-of-speech)是詞彙基本的語法範疇,通常也稱為詞類,主要用來描述一個詞在上下文的作用。例如,描述一個概念的詞就是名詞,在下文引用這個名詞的詞就是代詞。有的詞性經常會出現一些新的詞,例如名詞,這樣的詞性叫做開放式詞性。另外一些詞性

Python 結巴 關鍵詞抽取分析

等於 範圍 分類問題 urn post bre 依然 信息檢索 有意 關鍵詞抽取就是從文本裏面把跟這篇文檔意義最相關的一些詞抽取出來。這個可以追溯到文獻檢索初期,當時還不支持全文搜索的時候,關鍵詞就可以作為搜索這篇論文的詞語。因此,目前依然可以在論文中看到關鍵詞這一項。

Python中結巴使用手記

img 3年 方法封裝 python token sys.path 裝飾 arp mage 結巴分詞方法封裝類 from __future__ import unicode_literals import sys sys.path.append("../")

python中文,使用結巴對python進行

php 分詞 在采集美女站時,需要對關鍵詞進行分詞,最終采用的是python的結巴分詞方法.中文分詞是中文文本處理的一個基礎性工作,結巴分詞利用進行中文分詞。其基本實現原理有三點:基於Trie樹結構實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖(DAG)采用了動態規劃查找最大概率

SnowNLP:?中文?詞性標準?提取文本摘要,?提取文本關鍵詞,?轉換成拼音?繁體轉簡體的 處理中文文本的Python3 類庫

sum 文本分類 idf 區別 xtran 轉換成 好的 一個 osi SnowNLP是一個python寫的類庫,可以方便的處理中文文本內容,是受到了TextBlob的啟發而寫的,由於現在大部分的自然語言處理庫基本都是針對英文的,於是寫了一個方便處理中文的類庫,並且和

記一次結巴.net core 2.0版 nuget發布過程

core param inf 文件 pos 成功 搜索 ros uri 最近用到分詞考慮很久,選用了結巴分詞,原因見博客Lucene.net(4.8.0) 學習問題記錄五: JIEba分詞和Lucene的結合,以及對分詞器的思考 既然選好了,難就開始行動吧 。 查了.net

jieba結巴

返回 int 使用 error import arch 豆瓣 但是 定義 pip install jieba安裝jieba模塊如果網速比較慢,可以使用豆瓣的Python源:pip install -i https://pypi.douban.com/simple/ jieb

python 結巴(jieba)詳解

【轉自:https://www.cnblogs.com/jackchen-Net/p/8207009.html】 “結巴”中文分詞:做最好的 Python 中文分片語件 "Jieba" (Chinese for "to stutter") Chinese text segmentation:

關於匯入結巴的程式打包成exe無法正常執行的問題

問題描述 現在有一個程式,裡面引用了結巴分詞的包,主要是用來計算詞頻的,在原始碼環境下執行沒有任何異常,但是打包成exe的檔案時,打包成功了,卻無法正常的執行,提示找不到idf.txt檔案的位置 參考連結 如果報dict.txt的錯誤,也可以看看

結巴簡要理解

Python中分分詞工具很多,包括盤古分詞、Yaha分詞、Jieba分詞、清華THULAC等。它們的基本用法都大同小異,這裡先了解一下結巴分詞。 一、安裝  pip install jieba 若使用PyCharm,從左上角的File–>Setting–>

jieba-詞性標註

結巴分詞4--詞性標註 作者:zhbzz2007 出處:http://www.cnblogs.com/zhbzz2007  1 簡介 詞性(part-of-speech)是詞彙基本的語法範疇,通常也稱為詞類,主要用來描述一個詞在上下文的作用。例如,描述一個概念的詞就是名詞,在下

學習筆記--中文結巴(二)

結巴中文分詞簡介    1)支援三種分詞模式: 精確模式:將句子最精確的分開,適合文字分析 全模式:句子中所有可以成詞的詞語都掃描出來,速度快,不能解決歧義 搜尋引擎模式:在精確的基礎上,對長詞再次切分,提高召回    2)支援繁體分詞    3)支援自定義詞典

中文的演算法與實現(結巴

       宣告:程式碼的執行環境為Python3。Python3與Python2在一些細節上會有所不同,希望廣大讀者注意。本部落格以程式碼為主,程式碼中會有詳細的註釋。相關文章將會發布在我的個人部落格專欄《Python自然語言處理》,歡迎大家關注。

使用結巴(jieba)對自然語言進行特徵預處理(Python、Java 實現)

一、前言 之前使用基於 Python 語言的 Spark 進行機器學習,程式設計起來是十分簡單。 ① 但是演算法部署到雲伺服器上,是一個障礙。 ② 得藉助 Flask/Django 等 Python W

使用python中的結巴作詞雲圖,對微信功能點進行輔助分析

工作室任務:基於知乎評論,分析微信功能點,做一次分享會。 一、原料和準備 1.從網上爬蟲的文件,儲存為txt文件,本例來源https://www.zhihu.com/question/23178234?from=groupmessage&isappinstalled

python的jieba詞性標註

支援自定義詞典 Python 2.x 下的安裝 全自動安裝:easy_install jieba 或者 pip install jieba 手動安裝:將jieba目錄放置於當前目錄或者site-packages目錄 通過import jieba 來引用 (第一次import時需要構建Trie樹,需要幾

結巴和自然語言處理HanLP處理手記

#!/usr/bin/env python # -*- coding:utf-8 -*- import jieba import os import re import time from jpype import * ''' title:利用結巴分詞進行文字語料的批量處理