1. 程式人生 > >jieba提取關鍵詞時篩選詞性時單詞性選擇的一點注意事項

jieba提取關鍵詞時篩選詞性時單詞性選擇的一點注意事項

最近又在迭代特徵工程,發現jieba提取特徵詞有個需要注意的地方,直接看例子

例子1

>>> import jieba
>>> import jieba.posseg as pseg
>>> s = '我們喜歡支付寶, 蘋果'
>>> ws = pseg.cut(s)
>>> for i in ws:
...     print i
...
我們/r
喜歡/v
支付寶/nr
,/x
 /x
蘋果/n
>>> allow_pos = ('nr',)
>>> tags = jieba.analyse.extract_tags(s, topK=10
, withWeight=False, allowPOS=allow_pos) >>> for t in tags: ... print t ... 支付寶 >>> allow_pos = ('nr') >>> tags = jieba.analyse.extract_tags(s, topK=10, withWeight=False, allowPOS=allow_pos) >>> for t in tags: ... print t ... 蘋果 我們

allow_pos = (‘nr’,) 帶逗號,allow_pos是tuple, 結果只選取’nr’詞性的詞
allow_pos = (‘nr’), allow_pos是一個string, 結果選取了’n’ 和’r’的詞性
這個差別造成了關鍵詞提取方法中詞性選取的差異

相關推薦

提交前onclick使用reuturn,ajax請求同步非同步的一點注意事項

因為會經常用到ajax提交請求判斷一些資訊,比如,使用者賬號名是否存在等等,但如果是在提交表單資料按鈕的onclick時,用return check()來跳轉去最後驗證一下表單資料是否為空等等。需要注意一些問題。 當進行ajax請求時,如果success回撥得

jieba提取關鍵詞篩選詞性詞性選擇一點注意事項

最近又在迭代特徵工程,發現jieba提取特徵詞有個需要注意的地方,直接看例子 例子1 >>> import jieba >>> import jieba.po

使用 聚合函式(aggregate function),SQL語句的返回值的注意事項

假設有如下一條SQL語句 SELECT AVG(xuo.`attach_succ_rate`) AS `attach_succ_rate` FROM `xdr_user_orie

如何啟動節點zookeeper以及注意事項

1、安裝jdk,因為zookeeper是基於java進行開發的; 2、將zookeeper解壓之後,再zookeeper目錄下conf目錄下有一個zoo_sample.cfg,將它改名成zoo.cfg,因為zookeeper啟動時自動載入的是zoo.cfg檔案; 3、安裝單機版本只需要更改z

馳騁工作流引擎ccflow-ccbpm工作流引擎sdk表裝載邏輯處理注意事項

cbpm工作流引擎sdk表單裝載邏輯處理注意事項 關鍵字:馳騁工作流引擎 sdk表單 裝載介面呼叫   說明:如果您要採用ccbpm的sdk表單開發,在表單 載入前您需要呼叫一個介面來獲得當前節點的資訊,呼叫這個介面還會處理一些業務邏輯。 呼叫的介面名稱:BP.WF.Dev2Inter

jieba詞性標註與分詞結果不一致(提取關鍵詞

1、 先描述下現象 >>> aa='北京時間月日晚劉強東的刑辯律師在接受澎湃新聞記者電話採訪時表示劉強東涉嫌 強姦一案中的指控與證據是有出入的一旦調查結束證據將會披露給公眾證明他是無罪的' =======過濾詞性,能識別“劉強東” >>>

jieba 去除停用詞、提取關鍵詞詞性標註

#-*- coding:utf-8 -*- import sys import jieba import os import jieba.analyse import string import ma

使用jieba分詞提取關鍵詞

一、NLP介紹 概念 Natural Language Processing/Understanding,自然語言處理/理解 日常對話、辦公寫作、上網瀏覽 希望機器能像人一樣去理解,以人類自然語言為載體的文字所包含的資訊,並完成一些特定任務 內容 中文分詞、詞性標註

python自動化測試開發:當frame/iframe沒有可用的id或者name屬性,多表(frame/iframe)如何進行切換

在設計自動化測試指令碼時,經常會有多表單(frame/iframe)需要切換,否則無法定位到表單上的元素,在python中使用switch_to.frame()方法,具體用法如下 1、switch_to.frame()預設直接調取表單的id活name屬性。 示例: dr

spring中建立bean物件多例和例的區別

<?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w

element 關閉彈窗清空表信息

信息 his next dialog spa form span val date() 關閉彈窗時清空表單信息: // 彈框關閉時清空信息 closeDialog () { this.$nextTick(() => {

mybatis中傳遞引數,會加上引號

1) 使用#{引數}傳入會加上單引號,sql語句解析是會加上"", 比如  select * from table where name = #{name} ,傳入的name為小李,那麼最後打印出來的就是  select * from table where nam

避免重新整理頁面重複提交表資料

<?php // session_start() 會建立新會話或者重用現有會話。 如果通過 GET 或者 POST 方式,或者使用 cookie 提交了會話 ID, 則會重用現有會話。 session_start(); if( ! empty($_POST['sub']) ) {

python jieba實現關鍵詞提取

  每個txt資料夾裡面存放一個使用者的全部微博資料,在result_all檔案裡面存放了全部使用者的微博資料,這裡實現讀取每個使用者的資料併為每個使用者提取30個關鍵字。將為每個使用者提取出來的關鍵字存放在同一個檔案topic_all.txt檔案裡面。   需要關注的地方

hibernate用like進行模糊查詢不能寫引號!!!

今天在用hibernate進行like查詢時,遇到了sql語句類似這樣的: 'xxx'      'xxx%'     '%xxx'    '%xxx%' 每種情況都要考慮的時候,直接寫查詢不出結果(我帶單引號查不出結果) 其中SQL SERVER2014中: SQL語句

面試說Redis是執行緒的,被噴慘了!

Redis是單執行緒的,這話擱以前,是橫著走的,誰都知道的真理。現在不一樣,Redis 變了。再說這句話,多少得有質疑的語氣來跟你辯駁一番。意志不堅定的,可能就繳械投降,順著別人走了。 到底是什麼樣的,各位看官請跟小萊一起往下: 圖注:思維導圖 Reactor模式  反應器模式,你可能

Git commit提示錯誤    解決辦法

example you form efault his 自己的 com true 提示 vi 編輯 vim 編輯 a 進入編輯模式 esc 退出編輯模式 shift+: (看見: ) 代表開始執行下一行命名 w->q 保存退出 q->! 不保存退出 ca

使用Jackson轉換JSON,日期格式設置

ges 技術 自定義 -c color orm jackson 解決 style 在我們使用jackjson時時間默認輸出如下: 輸出是一串時間戳,不符合我們的要求,所以想到jackjson對時間的處理有他默認的格式,然後網上搜集各種資料,得出一下方式可以解決 取消j

基於TextRank提取關鍵詞、關鍵短語、摘要

重要 設計 沒有 次數 自動 pager detail utf 大於 一、TextRank原理 TextRank是一種用來做關鍵詞提取的算法,也可以用於提取短語和自動摘要。因為TextRank是基於PageRank的,所以首先簡要介紹下PageRank算法。 1.Pag

OpenCV 編譯下載 ippicv 過於緩慢

default 3rd file 定位 pen general 分支 com def 首先到 opencv_3rdparty 的 branch 找 ippicv 開頭的分支。 比如我需要下載的是 ippicv_2017u3_lnx_intel64_general_20170