資料處理-------利用jieba對資料集進行分詞和統計頻數

阿新 • • 發佈：2018-12-21

一，對txt檔案中出現的詞語的頻數統計再找出出現頻率多的
二，程式碼：

import re
from collections import Counter
import jieba


def cut_word(datapath):
    with open(datapath,'r',encoding='utf-8')as fp:
        string = fp.read()
        data = re.sub(r"[\s+\.\!\/_,$%^*(【】：\]\[\-:;+\"\']+|[+——！，。？、[email protected]#￥%……&*（）]+|[0-9]+", "", string)
        word_list = jieba.cut(data)
        print(type(word_list))
        return word_list

def static_top_word(word_list,top=5):
    result = dict(Counter(word_list))
    print(result)
    sortlist = sorted(result.items(),key=lambda x:x[1],reverse=True)
    resultlist = []
    for i in range(0,top):
        resultlist.append(sortlist[i])
    return resultlist


def main():
    datapath = 'comment.txt'
    word_list = cut_word(datapath)
    Result = static_top_word(word_list)
    print(Result)
main()

三，用正則對特殊符號過濾,用re.sub()對字元進行空字元替換

資料處理-------利用jieba對資料集進行分詞和統計頻數

一，對txt檔案中出現的詞語的頻數統計再找出出現頻率多的二，程式碼： import re from collections import Counter import jieba def cut_word(datapath): with open(

【自然語言處理入門】01：利用jieba對資料集進行分詞，並統計詞頻

一、基本要求使用jieba對垃圾簡訊資料集進行分詞，然後統計其中的單詞出現的個數，找到出現頻次最高的top100個詞。二、完整程式碼 # -*- coding: UTF-8 -*- fr

CharTokenizer對西文字元進行分詞處理

CharTokenizer是一個抽象類，它主要是對西文字元進行分詞處理的。常見的英文中，是以空格、標點為分隔符號的，在分詞的時候，就是以這些分隔符作為分詞的間隔符的。 package org.apache.lucene.analysis; import java.io.IOException;import

python使用jieba實現中文文檔分詞和去停用詞

分享圖片 lac lena idt center cut inpu span code 分詞工具的選擇：　　現在對於中文分詞，分詞工具有很多種，比如說：jieba分詞、thulac、SnowNLP等。在這篇文檔中，筆者使用的jieba分詞，並且基於python3環境，選擇

基因資料處理113之對avocado識別的SparkBWA變異資料進行疾病分析_

（一）問題問題1：avocado資料讀取： avocado存到磁碟是：RDD[Genotype] val processedGenotypes: RDD[Genotype] = postProcessVariants(calledVariants, st

利用pandas對初創公司進行資料分析

資料來源 Kesci的CrunchBase 初創公司資料集資料集內容 acquisitions.csv：初創公司被收購的記錄 acquisitions 初創公司被收購的記錄 company_permalink company_name

利用棧對資料進行逆置操作

#include "stdafx.h" #include<iostream> using namespace std; class stack //利用棧將元素逆置 { private:int msize; //

【python資料處理】jieba分詞

jieba（結巴）是一個強大的分詞庫，完美支援中文分詞三種分詞模式 import jieba s = u'我想和女朋友一起去北京故宮博物院參觀和閒逛。' cut = jieba.cut(s) #三種模式 print( '【Output】精確模式：') prin

利用pandas對資料離散化

在實際的工作場景中，我們經常會遇到這樣一種場景：想要將某些欄位進行離散化即分桶，簡單來說就是講年齡分成幾個區間。pandas中的cut方法能很好地完成此操作。 #匯入相關庫，並建立資料集 import pandas as pd import numpy as np in

【自然語言處理】利用LDA對希拉里郵件進行主題分析

首先是讀取資料集，並將csv中ExtractedBodyText為空的給去除掉 import pandas as pd import re import os dir_path=os.path.dirname(os.path.abspath(__file__)) data_path=dir_path+"/

django 利用ORM對單表進行增刪改查

man api light 賦值連接取出簡單 extern follow 牛小妹上周末，一直在嘗試如何把數據庫的數據弄到界面上。畢竟是新手，搞不出來，文檔也看不懂。不過沒關系，才剛上大學。今晚我們就來解釋下，要把數據搞到界面的第一步。先把數據放到庫裏，然後再把數據從庫

利用結果集進行分頁

dex ges != 傳遞 from ont 鏈接建數據庫 value 1.概述數據的分頁顯示是Web程序的基本技術。通過簡單的超鏈接就可以實現數據在頁面上的分頁顯示。本實例是通過在頁面上輸入課程類型，查詢該類型的所有數據，然後再分頁顯示。 2.技術要點

利用logrotate對Tomcat日誌進行切分

最近在做伺服器資源釋放的時候發現有一臺伺服器的find命令無法使用（原因不詳），所以之前利用cronolog對Tomcat日誌進行切分之後。是基於包含find命令的shell指令碼做的自動清理。這時就想到了用logrotate對Tomcat日誌進行切分。 1、指令碼如下： /usr/lo

利用logrotate對nginx日誌進行切分

1、指令碼如下： /gdsfapps/flgw/logs/nginx/*.log{ missingok dateext notifempty daily rotate 7 sharedscripts postrotate if [ -f /usr/local/nginx/logs/nginx

利用opencv對圖片大小進行修改

執行環境：ubuntu16.04 + opencv 2.4.13 + c++ (系統g++版本5.4.0） #include <iostream> #include <fstream> #include <opencv2/core/core.hpp> #inc

OSM資料處理與分析------OSM資料說明

目錄 OSM概念 OSM資料 OSM資料介面 way資料 node資料 OSM資料相關資訊統計統計資訊相關介面 OSM概念 OpenStreetMap，簡稱OSM，是一個網上地圖協作計劃，目標是創造一個內容自

第3章 Pandas資料處理(3.3)_Python資料科學手冊學習筆記

3.3 資料取值與選擇第2章回顧: - NumPy中取值操作: arr[2,1] - 切片操作: arr[:,1:5] - 掩碼操作: arr[arr>0] - 花哨的索引操作: arr[0,[1,5]] - 組合操作: arr[:,[1:5]] 3.3

pandas資料處理實踐五（透視表pivot_table、分組和透視表實戰Grouper和pivot_table）

透視表： DataFrame.pivot_table（values = None，index = None，columns = None，aggfunc ='mean'，fill_value = None，margin = False，dropna = True，margi

資料探勘01---文字分析（jieba分詞和詞雲繪製）

一、定義：文字挖掘：從大量文字資料中抽取出有價值的知識，並且利用這些知識重新組織資訊的過程。二、語料庫（Corpus）語料庫是我們要分析的所有文件的集合。 import os import os.path filePaths = [] #定義一個數組變數 #再用

利用Comparator對列舉型別進行排序的實現（ComparatorChain、BeanComparator、FixedOrderComparator）

背景：工作中遇到按照類的某個屬性排列，這個屬性是個列舉型別（完全是自定義的，沒有明顯的比較標誌），現要按照要求的優先順序排列。如一個蘋果類有大小和甜度屬性，大小有“特大”，“大”，“中”，“小”，“很小”的等級，甜度有“很甜”，“甜”

資料處理-------利用jieba對資料集進行分詞和統計頻數

相關推薦