NLTK統計中文詞頻並輸出
# -*- coding: utf-8 -*-
'''
使用NLTK對中文進行詞頻統計並輸出
'''
from nltk import FreqDist
def delblankline(infile, outfile):
infopen = open(infile, 'r',encoding="utf-8")
outfopen = open(outfile, 'w',encoding="utf-8")
lines = infopen.readlines()
cnt = Counter()
for char in lines:
cnt[char]+=1
vocab = cnt.most_common()
for each in vocab[:15000]:#對前15000個詞進行輸出
outfopen.write(each[0])
delblankline("原始檔路徑", "目標檔案路徑")
相關推薦
NLTK統計中文詞頻並輸出
# -*- coding: utf-8 -*- ''' 使用NLTK對中文進行詞頻統計並輸出 ''' from nltk import FreqDist def delblankline(infil
C語言:統計學生成績並輸出
統計學生成績並輸出最高分 題目要求:有50名學生,每個學生的資料包括學號,姓名,3門課的成績,從鍵盤輸入50名學生資料,要求打印出每門課的平均成績,以及三門課總分最高的學生資料(包括學號,姓名,3門課的成績,3門課的總分)。 #include<stdio.h> #defi
【C語言】在全系1000個學生中,徵集慈善捐款當總數達到10萬的時候,停止捐款,統計人數,並輸出平均捐款數
//在全系1000個學生中,徵集慈善捐款當總數達到10萬的時候,停止捐款,統計人數,並輸出平均捐款數 #include <stdio.h> int main() { float sum=
python jieba分詞並統計詞頻後輸出結果到Excel和txt文件
前兩天,班上同學寫論文,需要將很多篇論文題目按照中文的習慣分詞並統計每個詞出現的頻率。 讓我幫她實現這個功能,我在網上查了之後發現jieba這個庫還挺不錯的。 執行環境: 具體程式碼如下: #!/usr/bin/python # -*- coding:utf-8
10.16輸入一個字符串,內有數字和非數字字符,如: a123x456 17960? 302tab5876 將其中連續的數字作為一個整數,依次存放到一數組num中。例如123放在num[0]中,456放在num[1]中……統計共有多少個整數,並輸出這些數。
tab lnp zip sm2 cuc ycm rds qt5 tft 10.16輸入一個字符串,內有數字和非數字字符,如: a123x456 17960? 302tab5876 將其中連續的數字作為一個整數,依次存放到一數組num中。例
獲取中文的完整拼音並輸出
stat rtert bin tca spa nat ++ () one 1.添加maven依賴 <dependency> <groupId>com.belerweb</groupId>
中文詞頻統計及詞雲制作
print word 詞雲 出現 不能 分享 item 希望 技術 1.中軟國際華南區技術總監曾老師還會來上兩次課,同學們希望曾老師講些什麽內容?(認真想一想回答) 希望能講一些大數據相關內容,深入了解一下。 2.中文分詞 下載一中文長篇小說,並轉換成UTF-8編
9-25提出問題和中文詞頻統計
工作 ever 哥哥 mat 小說 他也 blog 只恐 {} 1.中軟國際華南區技術總監曾老師還會來上兩次課。希望老師能夠講一下 現在的網絡發展和現狀,感覺計算機專業是最受歡迎的,但是憑借著每年不斷畢業(增多)的人數,我們憑借著什麽來跟好比如我們是網工專業,跟學軟件班的同
+中文詞頻統計及詞雲制作9-25
輸出 很難 imp range 著名 python cloud 基本 jieba 1.我希望老師能講一點python在數據挖掘,數據分析領域的應用,最好能舉些實例,或者說帶我們實際操作一波。 2.中文分詞 下載一中文長篇小說,並轉換成UTF-8編碼 使用
中文詞頻統計
item 輸出 lis text 詞頻 ima {} set img 下載一中文長篇小說,並轉換成UTF-8編碼。 使用jieba庫,進行中文詞頻統計,輸出TOP20的詞及出現次數。 排除一些無意義詞、合並同一詞。 對詞頻統計結果做簡單的解讀。 import jieba
java-打印101-200之間的素數(PrimeNumber),並統計個數,並每5行輸出
ole enum math com math.sqrt day 輸出 package out package com.day3.one; public class PrimeNumber1 { /** * @param args * 打印101-200之間
編程-統計並輸出符合條件的字串組合
步驟 sin 簡單的 不同 returns tput def ima 獲取 背景 有一天晚上還在加班時,一個朋友打電話讓幫忙統計下幾個數字符合某種條件的所有可能結果,描述了好大一會才明白。編程不麻煩,抽空一會就寫好了,這裏做個簡單的記錄。 問題描述 有5個變量,分別
1.英文詞頻統2.中文詞頻統計
diff earch port pboc [1] ould ret framework poi 1.英文詞頻統 news=‘‘‘ Guo Shuqing, head of the newly established China banking and insurance
lucene 統計單詞次數(詞頻)並進行排序
edm font tin total .html lan 技術 rms puts 1 public class WordCount { 2 static Directory directory; 3 // 創建分詞器 4 stati
python 列表元素統計出現的次數並輸出字典
import collections my_list = [10,10,10,10,20,20,20,20,40,40,50,50,30] print("Original List : ",my_list) ctr = collections.Counter(my_list)
Java實現中文詞頻統計
昨日有個中文詞頻統計的需求, 百度一番後, 發現一大堆標題黨文章, 講的與內容嚴重不符, 這裡就簡單記錄下自己實現的流程吧! 與英文單詞的詞頻統計不同, 中文的難點在於如何分詞, 不過好在有許多優秀的現成庫供呼叫,這裡就使用了 ansj_seg 外掛. 首先新增依賴: 下載jar 訪問
##英語文字的單詞統計 排序並輸出前5%
## 英語文字的單詞統計 排序並輸出前5% /* 統計英語文字英語個數及150%*****************************************************
組合語言輸入字元,統計英文字母,數字,空格和其他字元,並輸出顯示。
使用軟體:Masm for Windows 整合實驗環境 2015 主要完成功能:輸入隨機個字元個數(最大98個,可調),統計字母,數字,空格,其他字元個數,統計好以後顯示出來相應個數。 存在部分問題未找到解決辦法,希望高人能請聯絡我,問題如下: 1.如果不輸入任何字元,直接回車,會導致
基於jieba庫實現中文詞頻統計
要實現中文分詞功能,大家基本上都是在使用 jieba 這個庫來實現,下面就看看怎樣實現一個簡單文字分詞功能。 安裝 python的工具,安裝當然是使用pip安裝了。 pip install jieba 使用 先看一個小例子,下面的程式碼是從一個文字檔案中分詞並統計出
統計陣列中出現次數最多的元素並輸出
實驗過程中遇到一個實際問題:需要統計出10次計數的值中出現最多的一個數,比如輸入34 35 35 35 34 35 35 35 34 33 十個數,要求最終輸出35.如果出現兩個數同樣多,則輸出兩個元素中較小的那一個(也可以是較大的那一個,但是必須確定是其中一種)。 程式碼