jieba：去停詞，詞性判斷，計算詞頻

阿新 • • 發佈：2019-01-26

import jieba
import jieba.posseg as pseg

from nlp.db import MongoClient
from nlp.config import *

class Tokenizer(object):
    def __init__(self):
        self._db = MongoClient()
        # 去停詞
        self._stopwords = []
        with open(STOP_WORDS, mode='r', encoding='utf-8') as f:
            for w in f:
                self._stopwords.append(w.strip())
    def get_topN_tags(self):
        print('topN ...')
        word_list = []
        for meinv in self._db.get_meinv(key='meinv_name', filter={}):
            # 詞性判斷
            msgs =   [m for m in pseg.cut(meinv) if m.word not in self._stopwords and m.flag is 'n']
            word_list.extend([key for key, value in msgs]) # 新增所有word
        word_set = set(word_list)
        word_freq_dict = dict()
        for word in word_set:
            if len(word) > 1:
                freq = word_list.count(word)
                word_freq_dict[word] = freq
        tags_list = [k for k, v in sorted(word_freq_dict.items(), key=lambda x : x[1], reverse=True)] # dict根據value降序排序
        return tags_list[0:100] # top100

    def participle(self):
        tags_list = self.get_topN_tags()
        print(tags_list)
        for meinv in self._db.get_meinv(key='meinv_name', filter={}):
            # 全模式
            tags = [m for m in jieba.cut(meinv, cut_all=True) if m in tags_list]
            # 去重複
            if tags:
                tags = set(tags)
            else:
                tags = ['其他']
            pic_list = self._db.get(table=MONGO_TABLE, query={'meinv_name' : meinv})
            # data
            data = {
                'meinv_name' : meinv.strip(),
                'meinv_tags' : list(tags),
                'meinv_pic_list' : list(pic_list)
            }
            self._db.put(table=MONGO_YIERLING, data=data)
            print(meinv, 'ok...')
        print('yierling ok...')


if __name__ == '__main__':
    tn = Tokenizer()
    tn.participle()

jieba：去停詞，詞性判斷，計算詞頻

import jieba import jieba.posseg as pseg from nlp.db import MongoClient from nlp.config import * class Tokenizer(object): def __ini

文字處理（二）詞頻統計,jieba分詞，詞性標註，snownlp情感分析

這一篇接著上一篇處理後的資料進行操作，按照（一）中的步驟，這事應該將文字資料每一行中的高頻的正面詞去掉，因為多數是描述身體健康的短句，只有少數是描述脾臟檢查異常的，所以嘗試刪除掉描述身體健康的短句，只留下少數檢查異常的資料，對異常的檢查資料進行特徵提取，這是思路。所以這一篇目

hell腳本編寫之條件選擇，條件判斷，循環語句

if case for while until1 概述編寫shell腳本，一般離不開條件選擇，條件判斷以及循環語句。掌握這三個語法，將大大提高腳本的編寫效率，使得腳本編寫更加靈活，完成X相對復雜的工作2 條件選擇if語句if語句選擇執行，逐條件進行判斷，第一次遇為“真”條件時，執行其分支，而後結束整個if語

569C】Primes or Palindromes? （思維，分析範圍，暴力判斷，）

題幹： Rikhail Mubinchik believes that the current definition of prime numbers is obsolete as they are too complex and unpredictable. A pali

Shell指令碼（介紹，變數，運算，條件判斷，迴圈，函式）

shell是人機互動的翻譯注意的是，shell和Linux核心合在一起才是Linux。 Shell指令碼命令由兩種工作方式，一種是互動式，寫一句命令，執行一句命令一種是批處理，一次執行多個命令，先把命令寫好，然後在執行舉個例子： [[emai

利用Freemarker生成doc檔案（包含list迴圈，ifelse判斷，合併單元格，嵌入表格單元格字數過多報錯等）

1、利用office等軟體開啟doc文件，另存為word2003xml形式的檔案。 2、修改xml中的需要動態生成的值，Freemarker變數為${data}格式的，修改完改成ftl字尾，複製到載入

JavaScript基礎知識（資料型別，迴圈判斷，集合）

JavaScript中允許對任何資料進行比較，例如 false == 0 //true false === 0 ///falseNaN函式：有一個特殊的值NaN，這個特殊的number值與其他的值都不相等，包括與自身 NaN == NaN /

python使用jieba實現中文文檔分詞和去停用詞

分享圖片 lac lena idt center cut inpu span code 分詞工具的選擇：　　現在對於中文分詞，分詞工具有很多種，比如說：jieba分詞、thulac、SnowNLP等。在這篇文檔中，筆者使用的jieba分詞，並且基於python3環境，選擇

改進的中科院分詞系統NLPIR程式碼（加入使用者詞典，去停用詞，檔案讀寫）+情感分析字典包+工具包+論文包

NLPIR分詞，加入使用者詞典，去停用詞，檔案讀寫等原始碼下載地址優化的分詞系統程式碼原始碼下載地址 NLPIR分詞系統優化的分詞系統程式碼以下是核心程式碼完整程式碼可以直接執行分詞，點我跳轉 public cl

Python 文字挖掘：jieba中文分詞和詞性標註

#! /usr/bin/env python2.7 #coding=utf-8 import jieba import jieba.posseg #需要另外載入一個詞性標註模組 string = '其實大家買手機就是看個心情，沒必要比來比去的。' seg = jieba.posseg.cut(string

python呼叫jieba(結巴)分詞加入自定義詞典和去停用詞功能

#!/usr/bin/python #-*- encoding:utf-8 -*- import jieba #匯入jieba模組 import re jieba.load_userdict("newdict.t

SnowNLP：?中文分詞?詞性標準?提取文本摘要,?提取文本關鍵詞,?轉換成拼音?繁體轉簡體的處理中文文本的Python3 類庫

sum 文本分類 idf 區別 xtran 轉換成好的一個 osi SnowNLP是一個python寫的類庫，可以方便的處理中文文本內容，是受到了TextBlob的啟發而寫的，由於現在大部分的自然語言處理庫基本都是針對英文的，於是寫了一個方便處理中文的類庫，並且和

JAVA 題目：輸入某年某月某日，判斷這一天是這一年的第幾天？

再看應該 boolean post pos tin als ini ror 1 package Training; 2 3 //import java.util.Calendar; 4 import java.util.Scanner; 5 /** 6

Java常見算法(一)：去重，去不重復

IT OS mage class 叠代集合 size wid emp (一)去重 1.1 去重復() ①：建一個新的集合temp ②：再建傳入集合的叠代器，調用it.hasNext（）。 ③：再用temp.contains("e")方法判斷---->true it.

shell腳本：變量，文件判斷，邏輯運算等紀要

是否為空 add 邏輯判斷軟連接 ech 方式字符串個數 dir shell腳本中的變量定義，引用各有不同的方式，除此之外，很常用的有文件屬性判斷，邏輯運算，數值運算等，下面記錄一下它們的屬性作用變量 shell變量的定義分為兩種：一種是直接

幣圈生存實錄：風停了，飛豬摔死了

“我能算出天體執行的軌跡，卻算不出人性的貪婪。” 26歲的農村小夥曾文幹過傳銷、做過資金盤，離開富士康後專職炒幣，28天，用5000元賺了20多萬，也曾試過一夜爆倉、負債累累，但他仍然相信投資加密貨幣是他實現“中產階層跨越”最快捷的方式。知

pandas DataFrame高效程式設計方法：根據多列的值做判斷，生成新的列值,其中多列的值是包含多個值的資料型別

一.遇到的問題描述：我遇到問題的資料比較複雜，下面以比較簡單的資料為例說明問題，所以這些資料的含義是沒有意義的，可以忽略資料的的具體意義。資料如下所示： import numpy as np import pandas as pd data = {'city': [{'Beijing':1

藍的成長記——追逐DBA（1）：奔波於路上，挺進山東藍的成長記——追逐DBA（3）：古董上操作，資料匯入匯出成了問題藍的成長記——追逐DBA（8）：重拾SP報告，回憶oracle的STATSPACK實驗藍的成長記— —追逐DBA（9）：國慶漸去，追逐DBA，新規劃，新啟程

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

程式設計師吐槽：去阿里工作接手別人做的系統，表面笑嘻嘻，心裡mmp

一名程式設計師在同行圈子裡吐槽，稱阿里太多人做了一個爛產品，看起來高大上，其實一堆坑，估計是接盤了別人做的產品留了一堆坑，故而有次吐槽：真誠相告要去阿里巴巴的人，拿offer前一定要問清楚，入職要做什麼，如果去接手別人的系統，即使hr和老闆說出花來，也不能去。

python小練習：讀入一個考試得分，判斷這個分數是哪個等級，並輸出，考慮異常場景

讀入一個考試得分，判斷這個分數是哪個等級，並輸出。等級：》=90 優，>=80且小於90 良，》=70 且小於80，中，》=60且<70及格《60 不及格覆蓋場景：考慮字元型別（str，float）數字範圍（0-1

jieba：去停詞，詞性判斷，計算詞頻

相關推薦