1. 程式人生 > >jieba和snownlp分詞的對比及snownlp用法簡介和情感分析

jieba和snownlp分詞的對比及snownlp用法簡介和情感分析

首先安裝jieba和snownlp直接pip就可以。

import jieba
from snownlp import SnowNLP
#SnowNLP庫:
# words:分詞
# tags:關鍵詞
# sentiments:情感度
# pinyin:拼音
# keywords(limit):關鍵詞
# summary:關鍵句子
# sentences:語序
# tf:tf值
# idf:idf值

#分詞的對比
s=SnowNLP('這個東西很贊')
#s.words返回一個列表,打印出來即可
print(s.words)
['這個', '東西', '很', '贊']

#jieba.cut返回一個生成器
print(list(jieba.cut('這個東西很贊')))
['這個', '東西', '很贊']

#拼音真的牛
print(s.pinyin)

['zhe', 'ge', 'dong', 'xi', 'hen', 'zan']

#關鍵詞tags
print(list(s.tags))
[('這個', 'r'), ('東西', 'n'), ('很', 'd'), ('贊', 'Vg')]


#關鍵詞的對比

text = '''
自然語言處理是電腦科學領域與人工智慧領域中的一個重要方向。
它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。
自然語言處理是一門融語言學、電腦科學、數學於一體的科學。
因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,
所以它與語言學的研究有著密切的聯絡,但又有重要的區別。
自然語言處理並不是一般地研究自然語言,
而在於研製能有效地實現自然語言通訊的計算機系統,
特別是其中的軟體系統。因而它是電腦科學的一部分。
'''
s=SnowNLP(text)
#s.tags 返回一個列表
print(list(s.keywords(5)))
['語言', '自然', '計算機', '領域', '研究']

#jieba.analyse返回一個列表
print(jieba.analyse.extract_tags(text,topK=5))
['自然語言', '電腦科學', '語言學', '研究', '領域']

我個人還是認為jieba分詞要比snownlp分詞好點,但是snownlp可以挑選關鍵句子和做情感分析。

#情感分析
print(s.sentiments)

1.0

#關鍵句子
print(s.summary())
['因而它是電腦科學的一部分', '自然語言處理是電腦科學領域與人工智慧領域中的一個重要方向', '自然語言處理是一門融語言學、電腦科學、數學於一體的科學', '所以它與語言學的研究有著密切的聯絡', '這一領域的研究將涉及自然語言']

相關推薦

jiebasnownlp對比snownlp用法簡介情感分析

首先安裝jieba和snownlp直接pip就可以。 import jieba from snownlp import SnowNLP #SnowNLP庫: # words:分詞 # tags:關鍵詞 # sentiments:情感度 # pinyin:拼音 # keywo

Elasticsearch拼音IK的安裝使用

一、Es外掛配置及下載 1.IK分詞器的下載安裝 關於IK分詞器的介紹不再多少,一言以蔽之,IK分詞是目前使用非常廣泛分詞效果比較好的中文分詞器。做ES開發的,中文分詞十有八九使用的都是IK分詞器。 下載地址:https://github.com/medcl/elasticsearch-analysis

自然語言處理概述應用中文簡述

自然語言處理概述及應用和中文分詞簡述 自然語言處理概述 0.概念 自然語言處理(Natural Language Processing,簡稱NLP)是主要研究人與計算機交際中的語言問題的一門學科。“自然語言處理要研製表示語言能力(linguistic competence)和語言

中文原理jieba

本文首先介紹下中文分詞的基本原理,然後介紹下國內比較流行的中文分詞工具,如jieba、SnowNLP、THULAC、NLPIR,上述分詞工具都已經在github上開源,後續也會附上github連結,以供參考。 1.中文分詞原理介紹 1.1 中文分詞概述 中文分詞(Chines

[python] 使用Jieba工具中文文字聚類概念

一. Selenium爬取百度百科摘要         簡單給出Selenium爬取百度百科5A級景區的程式碼: # coding=utf-8 """ Created on 2015-12-10 @author: Eastmount """ impo

62.修改手動創建

round 單詞 自己 words 停用 默認 htm ext yellow 主要知識點 修改分詞器 手動創建分詞器 一、修改分詞器 1、默認的分詞器standard,主要有以下四個功能 standard tokenizer:以單詞邊界進行切

Es學習第五課, 器介紹中文器配置

 上課我們介紹了倒排索引,在裡面提到了分詞的概念,分詞器就是用來分詞的。 分詞器是ES中專門處理分詞的元件,英文為Analyzer,定義為:從一串文字中切分出一個一個的詞條,並對每個詞條進行標準化。它由三部分組成, Character Filters:分詞之前進行預處

【Docker系列】認識ELK,docker安裝ELKIK

1.ELK簡介 ELK是三個開源軟體的縮寫,分別表示:Elasticsearch , Logstash, Kibana , 它們都是開源軟體。新增了一個FileBeat,它是一個輕量級的日誌收集處理工具(Agent),Filebeat佔用資源少,適合於在各個伺服器上搜集日誌後傳輸給Logstash,官方也推

自然語言處理——中文原理工具介紹

本文首先介紹下中文分詞的基本原理,然後介紹下國內比較流行的中文分詞工具,如jieba、SnowNLP、THULAC、NLPIR,上述分詞工具都已經在github上開源,後續也會附上github連結,以供參考。 1.中文分詞原理介紹 1.1 中文分詞概述 中文分詞(Chinese Word Seg

es配置中文拼音

1.簡介 es預設使用standard分詞器 es還有其他分詞器比如simple writespace language 2.配置中文分詞器(需先安裝git maven unzip) git clone https://github.com/medcl/elasticse

網站中用lucene全文搜尋引擎ansj外掛之ansj配置檔案的正確寫法

不介紹: 怎麼下載?怎麼使用?下載後都有demo的。 這裡只說關鍵的: 1.把lucene的lucene-analyzers-common-7.4.0.jar、lucene-core-7.4.0.jar和lucene-queryparser-7.4.0.jar匯

elasticsearch 6.2.3 安裝IK IK器簡單使用demo

IK分詞器與elasticsearch 有版本對應關係,點選這裡 安裝 一、安裝 第二種方式:使用elasticsearch的命令elasticsearch-plugin安裝( version > v5.5.1 ),網路不好不一定能成功,這時可以採用第一

基於jieba改寫的算(待完成)

基於jieba改寫的分詞演算法 import os, re, pandas as pd from math import log from time import time # 基礎目錄 BASE_PATH = os.path.dirname(__file__

ElasticSearch學習筆記(二)IK拼音器的安裝

ElasticSearch是自帶分詞器的,但是自帶的分詞器一般就只能對英文分詞,對英文的分詞只要識別空格就好了,還是很好做的(ES的這個分詞器和Lucene的分詞器很想,是不是直接使用Lucene的就不知道),自帶的分詞器對於中文就只能分成一個字一個字,這個顯然

Elasticsearch筆記六之中文自定義

中文分詞器 在lunix下執行下列命令,可以看到本來應該按照中文”北京大學”來查詢結果es將其分拆為”北”,”京”,”大”,”學”四個漢字,這顯然不符合我的預期。這是因為Es預設的是英文分詞器我需要為其配置中文分詞器。 curlHTTP://192.168.79.131:9

ElasticSearch 安裝 IK器的安裝

# # ----------------------------------- Paths ------------------------------------ #path.data: /opt/es/data # # Path to log files: #path.logs: /opt/es/logs

python jieba模組的基本用法

jieba(結巴)是一個強大的分詞庫,完美支援中文分詞,本文對其基本用法做一個簡要總結。 安裝jieba pip install jieba 簡單用法 結巴分詞分為三種模式:精確模式(預設)、全模式和搜尋引擎模式,下面對這三種模式分別舉例介紹: 精確模式 import jieba s = u'我想

IKpinyin

一、拼音分詞的應用 拼音分詞在日常生活中其實很常見,也許你每天都在用。開啟淘寶看一看吧,輸入拼音”zhonghua”,下面會有包含”zhonghua”對應的中文”中華”的商品的提示: 拼音分詞是根據輸入的拼音提示對應的中文,通過拼音分詞提升搜尋體驗、加快搜索速度。

ES中的分析器IK器外掛

一些概念 Token(詞元) 全文搜尋引擎會用某種演算法對要建索引的文件進行分析, 從文件中提取出若干Tokenizer(分詞器) Tokenizer(分詞器) 這些演算法叫做Tokenizer(分詞器) Token F

Solr6.5配置中文IKAnalyzer拼音pinyinAnalyzer (二)

 之前在 Solr6.5在Centos6上的安裝與配置 (一) 一文中介紹了solr6.5的安裝。這篇文章主要介紹建立Solr的Core並配置中文IKAnalyzer分詞和拼音檢索。 一、建立Core: 1、首先在solrhome(solrhome的路徑和配置見Solr6.5在Centos6上的安裝與配置