Python文字詞頻統計的編碼問題-MOOC嵩天

阿新 • • 發佈：2018-11-05

1 Python文字詞頻統計程式碼

1.1Hamlet詞頻統計（含Hamlet原文文字）

#CalHamletV1.py
def getText():
    txt = open("hamlet.txt", "r").read()
    txt = txt.lower()
    for ch in '!"#$%&()*+,-./:;<=>[email protected][\\]^_‘{|}~':
        txt = txt.replace(ch, " ")   #將文字中特殊字元替換為空格
    return txt
 
hamletTxt = getText()
words  = hamletTxt.split()
counts = {}
for word in words:           
    counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True) 
for i in range(10):
    word, count = items[i]
    print ("{0:<10}{1:>5}".format(word, count))

1.2《三國演義》人物出場統計（上）（含《三國演義》原文文字）

#CalThreeKingdomsV1.py
import jieba
txt = open("threekingdoms.txt", "r", encoding='utf-8').read()
words  = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True) 
for i in range(15):
    word, count = items[i]
    print ("{0:<10}{1:>5}".format(word, count))

1.3《三國演義》人物出場統計（下）（含《三國演義》原文文字）

#CalThreeKingdomsV2.py
import jieba
excludes = {"將軍","卻說","荊州","二人","不可","不能","如此"}
txt = open("threekingdoms.txt", "r", encoding='utf-8').read()
words  = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:
        continue
    elif word == "諸葛亮" or word == "孔明曰":
        rword = "孔明"
    elif word == "關公" or word == "雲長":
        rword = "關羽"
    elif word == "玄德" or word == "玄德曰":
        rword = "劉備"
    elif word == "孟德" or word == "丞相":
        rword = "曹操"
    else:
        rword = word
    counts[rword] = counts.get(rword,0) + 1
for word in excludes:
    del counts[word]
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True) 
for i in range(10):
    word, count = items[i]
    print ("{0:<10}{1:>5}".format(word, count))

1.4 文字詞頻統計的文字

該資源是《Python文字詞頻統計的編碼問題-MOOC嵩天》的文字詞頻統計的文字。包內包含三國演義中文版TXT和哈姆雷特英文版TXT。
資源地址：文字詞頻統計的文字

2 文字詞頻統計的編碼問題

2.1 文字詞頻編碼對應程式碼

將文字詞頻統計的文字和程式碼放於同一資料夾下，執行上述程式碼，會出現以下報錯：

UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 14: illegal multibyte sequence

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb5 in position 3: invalid start byte

根據提示，是TXT文字編碼的格式問題。因此只需要將程式碼中識別編碼格式的程式碼進行更改即可。Hamlet以及ThreeKingdom的識別編碼的程式碼行如下：
Hamlet

txt = open("hamlet.txt", "r").read()

ThreeKingdomV1

txt = open("threekingdoms.txt", "r", encoding='utf-8').read()

ThreeKingdomV2

txt = open("threekingdoms.txt", "r", encoding='utf-8').read()

2.2 檢視TXT編碼並更改程式碼

檢視TXT編碼只需要開啟TXT並另存為，就會出現現在文件的編碼格式。編碼格式也可以更改。關鍵是要保持文字的編碼格式和程式碼讀取的編碼格式相同。
由於我上傳的TXT編碼格式都是utf-8編碼，因此相應程式碼只需要更改為以下程式碼即可成功執行。
Hamlet

txt = open("hamlet.txt", "r", encoding='utf-8').read()

ThreeKingdomV1

txt = open("threekingdoms.txt", "r", encoding='utf-8').read()

ThreeKingdomV2

txt = open("threekingdoms.txt", "r", encoding='utf-8').read()

Python文字詞頻統計的編碼問題-MOOC嵩天

1 Python文字詞頻統計程式碼 1.1Hamlet詞頻統計（含Hamlet原文文字） #CalHamletV1.py def getText(): txt = open("hamlet.txt", "r").read() txt = txt.lower()

練習1: Python基本語法元素（MOOC嵩天課程）

1.輸出Hello World，注意大小寫。最經典的程式 print("Hello World") 2.垂直輸出”Hello World”，全部程式碼不超過2行。關鍵在於理解垂直輸入=每輸入一個字母換行一次可以考慮使用迴圈 for

Python語言程式設計（MOOC崇天）第六章組合資料型別學習筆記（基本統計值計算+文字詞頻統計）

複習：今日內容：組合資料型別集合型別及操作：集合型別的定義：非可變的資料型別：整數、浮點、元組、負數、字串型別可變的資料型別：列表list和字典dict。所以看不到集合中有列表、{[ ]} 就算是set([1

mooc 嵩天python課程練習題一

1.編寫一個程式，計算輸入數字N的0次方到5次方結果，並依次輸出這6個結果，輸出結果間用空格分隔。其中：N是一個整數或浮點數題解：在這道題目裡，需要注意的是輸出在同一行，並且小數末尾不能有零** 表

MOOC嵩天python期末測試程式設計題彙總

2-1 快樂數字def snum(num): strnum = str(num) sum = 0 b = [int(x) for x in strnum] for i i

python語言程序設計-北京理工大學-嵩天等課件代碼整理

國內效果 space 刷新 circle () hits 圓周率 lee #TempConvert.py TempStr = input("請輸入帶有符號的溫度值: ") if TempStr[-1] in [‘F‘, ‘f‘]: C = (eval(TempS

jieba庫以及文字詞頻統計

簡介◆ jieba庫是優秀的中文分詞第三方庫◆ jieba庫和其他的第三方庫一樣，在cmd中使用pip install jieba 就可以進行安裝◆ jieba最常用的函式只有一個，在下面我們會見到jieba庫的三種模式及其函式◆ 精確模式：jieba.lcut(s)

中國mooc大學---Python語言程式設計（嵩天/黃天羽/禮欣）

中國mooc大學—Python語言程式設計（嵩天/黃天羽/禮欣）使用者登入（三次機會）描述給使用者三次輸入使用者名稱和密碼的機會，要求如下：‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪

Python生成詞雲圖，TIIDF方法文字挖掘: 詞頻統計，詞雲圖

python中使用wordcloud包生成的詞雲圖。下面來介紹一下wordcloud包的基本用法。 class wordcloud.WordCloud(font_path=None, widt

Python語言程式設計（MOOC崇天）第三章基本資料型別學習筆記（天天向上的力量+文字進度條）

回顧：第一章第二章本週內容：基本資料型別 3.1數字型別及操作整數型別：浮點數浮點數計算存在不確定尾數的原因....... 浮點數可以採用科學計數法表示複數型別：傅立葉變換用的多.....這

Python進行文字預處理（文字分詞，過濾停用詞，詞頻統計，特徵選擇，文字表示）

系統：win7 32位分詞軟體：PyNLPIR 整合開發環境（IDE）：Pycharm 功能：實現多級文字預處理全過程，包括文字分詞，過濾停用詞，詞頻統計，特徵選擇，文字表示，並將結果匯出為WEKA能夠處理的.arff格式。直接上程式碼： #!/usr/bin/

python 文字單詞提取和詞頻統計

這些對文字的操作經常用到，那我就總結一下。陸續補充。。。操作： strip_html(cls, text) 去除html標籤 separate_words(cls, text, min_

python中文字符串編碼問題

err har .json 情況 comm 常用 class not 字符串類型接口測試的時候，發現接口返回內容是uncodie類型但是包含中文。在使用print進行打印時輸出提示錯誤： UnicodeEncodeError: ‘ascii‘ codec can‘t e

走入計算機的第十七天（python的字符編碼和函數）

補充兼容 bit 精神其中字母數軟件謙虛字符驅動一字符編碼的只是儲配 1. 文本編輯器存取文件的原理（nodepad++，pycharm，word）　　　　打開編輯器就打開了啟動了一個進程，是在內存中的，所以在編輯器編寫的內容也都是存放與內存中的，斷電

嵩天老師的零基礎Python筆記：https://www.bilibili.com/video/av13570243/?from=search&seid=15873837810484552531 中的15-22講

lock dia 自然常數e list 隨機種子返回時間三種 lis #coding=gbk#嵩天老師的零基礎Python筆記：https://www.bilibili.com/video/av13570243/?from=search&seid=158738

嵩天老師的零基礎Python筆記：https://www.bilibili.com/video/av15123607/?from=search&seid=10211084839195730432#page=25 中的30-34講

positive 浮點型 was format 零基礎判斷筆記提示返回值 #coding=gbk#嵩天老師的零基礎Python筆記：https://www.bilibili.com/video/av15123607/?from=search&seid=102

嵩天老師的零基礎Python筆記：https://www.bilibili.com/video/av15123607/?from=search&seid=10211084839195730432#page=25 中的38-41講

col turtle 計算正則表達式 __main__ 打開文件 video 照片 itl # -*- coding: utf-8 -*-#嵩天老師的零基礎Python筆記：https://www.bilibili.com/video/av15123607/?from=s

python詞頻統計

for don trie 轉換 ems branch art read right 詞頻統計預處理下載一首英文的歌詞或文章將所有,.？！’:等分隔符全部替換為空格將所有大寫轉換為小寫生成單詞列表生成詞頻統計排序排除語法型詞匯，代詞、冠詞、連詞輸出詞頻最大TOP10 s=‘R

【Python】三國演義詞頻統計

RM pre excludes 孔明 use {} HR form PE import jiebatxt = open(‘C:/Users/eternal/Desktop/threekingdoms.txt‘,‘r‘,encoding=‘UTF-8‘).read()　　#提

Python 詞頻統計

英文單詞通過 python 代碼解析文本 AR 從大到小 read -c 利用Python做一個詞頻統計 GitHub地址：FightingBob 【Give me a star , thanks.】詞頻統計　　對純英語的文本文件【Eg: 瓦爾登湖(英文版)

Python文字詞頻統計的編碼問題-MOOC嵩天

1 Python文字詞頻統計程式碼

1.1Hamlet詞頻統計（含Hamlet原文文字）

1.2《三國演義》人物出場統計（上）（含《三國演義》原文文字）

1.3《三國演義》人物出場統計（下）（含《三國演義》原文文字）

1.4 文字詞頻統計的文字

2 文字詞頻統計的編碼問題

2.1 文字詞頻編碼對應程式碼

2.2 檢視TXT編碼並更改程式碼

相關推薦