詞頻統計例項

阿新 • • 發佈：2020-08-16

英文(詞頻統計)
中文(三國演義詞頻統計)
詞頻統計2.0->三國演義人物出場統計
詞雲實現

英文(詞頻統計)

def getText():  # 編寫獲得文字函式
    txt = open("C:\\Users\\dell\\Desktop\\a.txt", mode='tr').read()  # 開啟文字檔案只讀
    txt = txt.lower()  # 將所有的英文字元變成小寫
    for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_’{|}`':
        txt = txt.replace(ch, " ")  # 用空格替換以上的特殊符號
    return txt  # 返回歸一化處理後的文字
hamletTxt = getText()  # 讀取檔案
words = hamletTxt.split()  # 由於是以空格分隔，所以採用.split變成一個列表
counts = {}  # 定義一個字典，用對映關係可以標記每個單詞出現的次數
for word in words:  # 在words列表中逐一取出每一個單詞
    counts[word] = counts.get(word, 0) + 1  # .get()函式用word作為鍵索引字典，如果在字典就返回已有次數加一，不在則為0+1（相當於往字典新加了一個元素）
items = list(counts.items())  # 將counts變成列表型別
items.sort(key=lambda x: x[1], reverse=True)  # 對列表按照鍵值對的2個元素的第二個元素進行由大到小的排序
for i in range(10):  # 前10名
    word, count = items[i]  # 將前10名的單詞和次數儲存在items中
    print("{0:<10}{1:>5}".format(word, count))  # 打印出前10的單詞和次數

中文(三國演義詞頻統計)

不同：中文不存在大小寫問題，使用jieba庫進行分詞，不用考慮標點符號

import jieba
txt = open("C:\\Users\\dell\\Desktop\\a.txt","r",encoding="utf-8").read()
words = jieba.lcut(txt)
counts = {}#建立一個字典
for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word,0) + 1#計數
items = list(counts.items())#轉換成列表
items.sort(key=lambda x:x[1],reverse=True)
for i in range(15):
    word,count = items[i]
    print("{0:<10}{1:>5}".format(word,count))#列印

詞頻統計2.0->三國演義人物出場統計

排除上圖紅筆勾畫的與人物無關的詞語如將軍，卻說...
整合詞意相同的人名，如孔明，諸葛亮，孔明說...

import jieba
txt = open("C:\\Users\\dell\\Desktop\\a.txt","r",encoding="utf-8").read()
excludes = {"將軍","卻說","荊州","二人","不可","不能","如此"}#把不是人名的詞加到集合excludes中
words = jieba.lcut(txt)
counts = {}#建立一個字典
for word in words:
    if len(word) == 1:
        continue
    elif word == "諸葛亮" or word == "孔明曰":
        rword = "孔明"
    elif word == "關公" or word == "雲長":
        rword = "關羽"
    elif word == "玄德" or word == "玄德曰":
        rword = "劉備"#整合操作
    elif word == "孟德" or word == "丞相":
        rword = "曹操"#整合操作
    else:
        rword = word
        counts[word] = counts.get(word,0) + 1#計數
for word in excludes:
    del counts[word]  # 排除操作
items = list(counts.items())#轉換成列表
items.sort(key=lambda x:x[1],reverse=True)
for i in range(10):
    word,count = items[i]
    print("{0:<10}{1:>5}".format(word,count))#列印

結果優化：可以經過不斷地除錯，把結果中不是人名的詞加到encludes集合中，最終可得到期望的結果

詞雲實現

import jieba
import wordcloud#詞雲庫
f = open("C:\\Users\\dell\\Desktop\\a.txt",encoding="utf-8")
t = f.read()
f.close()
ls = jieba.lcut(t)#分詞後儲存到ls
txt = " ".join(ls) #用空格將列表的每一個元素連線起來
w = wordcloud.WordCloud( font_path = "msyh.ttc",width = 1000,height = 700,background_color = "white")#繪製詞雲
w.generate(txt)#載入文字
w.to_file("grwordcloud.png")#生成詞雲檔案

更多操作：1）限制字數：在繪製詞雲程式碼中加max_words = 10
2)底部更有形：程式碼第三行新增from imageio import imread第四行加mask = imread(“圖片”)，繪製詞雲程式碼第一個引數後加mask = mask

詞頻統計例項

目錄英文(詞頻統計)中文(三國演義詞頻統計)詞頻統計2.0->三國演義人物出場統計詞雲實現

042 例項10-文字詞頻統計

目錄一、\"文字詞頻統計\"問題分析 1.1 問題分析二、\"Hamlet英文詞頻統計\"例項講解

Python英文文章詞頻統計(14份劍橋真題詞頻統計)

Python劍橋真題詞頻統計最好還是要學以致用，自主蒐集了19年最近的14份劍橋真題之後，通過Python提供的jieba第三方庫，對所有的文章資訊進行了詞頻統計，並選擇性地剔除了部分簡易詞彙，比如數字，普通冠詞等，博主

C語言實現英文文字詞頻統計

這幾天寫了一個基於C語言對文字詞頻進行統計的程式，開發及除錯環境：mac整合開發環境Xcode；測試文字，馬丁.路德金的《I have a dream》原文演講稿。

Python：詞頻統計及排序

對一段文字，想要統計各種詞語出現的次數，即詞頻統計，思路是先分詞，再進行數量統計、排序。

spark 詞頻統計

spark 詞頻統計 package com.imooc.bigdata.chapter02 import org.apache.spark.{SparkConf, SparkContext}

20200917-2 詞頻統計

此作業的要求參見：https://edu.cnblogs.com/campus/nenu/2020Fall/homework/11206 詞頻統計 SPEC

張兵傑 20200917-2 詞頻統計

詞頻統計 SPEC 1. 功能1小檔案輸入。為表明程式能跑，結果真實而不是迫害老五，請他親自鍵盤在控制檯下輸入命令。

宮立秋20200917-2 詞頻統計

此作業要求參見：https://edu.cnblogs.com/campus/nenu/2020Fall/homework/11206 詞頻統計 SPEC 老五在寢室吹牛他熟讀過《魯濱遜漂流記》，在女生面前吹牛熱愛《呼嘯山莊》《簡愛》和《飄》，在你面前說通讀了《戰爭

詞頻統計 SPEC

此作業的要求參見https://edu.cnblogs.com/campus/nenu/2020Fall/homework/11206 功能1小檔案輸入。為表明程式能跑，結果真實而不是迫害老五，請他親自鍵盤在控制檯下輸入命令。

python使用jieba實現簡單的詞頻統計

import jieba def getText(): txt=open(\"hamlet.txt\",\"r\").read() txt=txt.lower() for ch in \'|\"#$%&()*+,-./:;<>+?@[\\\\]^_{|}~\':

第八次 Hive 操作與應用詞頻統計

一、hive用本地檔案進行詞頻統計 1.準備本地txt檔案 echo \"hadoop hbase\" > f1.txt echo \"hadoop hive\" > f2.txt

第八次：Hive 操作與應用詞頻統計

一、hive用本地檔案進行詞頻統計 1.準備本地txt檔案 1 2 echo \"hadoop hbase\" > f1.txt

Python詞頻統計的3種方法

技術標籤：python 大家好，我是小小明。上次，我分享了《100毫秒過濾一百萬字文字的停用詞》，這次我將分享如何進行詞頻統計。

浙大版《Python 程式設計》題目集第7章-1 詞頻統計

技術標籤：# Python學習筆記python 第7章-1 詞頻統計 import sys s = sys.stdin.read()#系統標準輸入模組一次讀入

詞頻統計方案與具體實現-elasticsearch、spark、python

詞頻自用，侵刪詞頻統計方案與具體實現-elasticsearch、spark、python 方案一、基於ElasticSearch方式

leetcode--shell練習之詞頻統計

技術標籤：Shellshellleetcodelinuxawk 題目寫一個 bash 指令碼以統計一個文字檔案 words.txt 中每個單詞出現的頻率。

09 使用python完成詞頻統計

技術標籤：pythonlinux大資料hadoopubuntu 1 系統、軟體以及前提約束 CentOS-7 64 為減少linux許可權對初學者造成影響，所有命令均在linux的root許可權下進行操作。已安裝hadoop-2.5.2 https://www.jianshu.com

HDFS API之編寫詞頻統計框架

package com.imooc.bigdata.hadoop.hdfs; /* * 使用HDFS API完成WordCount統計 * * 需求：統計HDFS上的檔案的詞頻統計，然後將統計結果輸出到HDFS

Python二級備考筆記6 《從清華到MIT》詞頻統計

1 《從清華到MIT》詞頻統計型別：Python 組合資料型別‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬

詞頻統計例項

英文(詞頻統計)

中文(三國演義 詞頻統計)

詞頻統計2.0->三國演義人物出場統計

詞雲實現

相關推薦

中文(三國演義詞頻統計)