統計文章詞頻（python實現）

阿新 • • 發佈：2019-02-19

統計出文章重複詞語是進行文字分析的重要一步，從詞頻能夠概要的分析文章內容。

本文將講述如何用python3.6版本實現英文文章詞頻的統計，通過本文也可以對python字典的操作有一定的認識。

實現思路：1.輸入文章

2.建立用於詞頻計算的空字典

3.對文字的每一行計算詞頻

4.從字典中獲取資料對到列表中

5.對列表中的資料交換位置，並排序

6.輸出結果

注意事項：1.該程式碼只能實現英文文章的詞頻統計，因為中文文章分詞還與其語意有關，需要用到中文分詞技術

2.網上下來的英文文章可能有一些不是utf-8編碼，並且文章中有一些字元包含一些格式符可能或導致解碼錯誤（UnicodeDecodeError: 'gbk' codec can't decode byte 0xff in position 0: illegal multibyte sequence）

程式碼實現如下：

from string import punctuation

#對文字的每一行計算詞頻的函式
def processLine(line,wordCounts):
    #用空格替換標點符號
    line=replacePunctuations(line)
    words = line.split()
    for word in words:
        if word in wordCounts:
            wordCounts[word]+=1
        else:
            wordCounts[word]=1

def replacePunctuations(line):
    for ch in line :
        #這裡直接用了string的標點符號庫。將標點符號替換成空格
        if ch in punctuation:
            line=line.replace(ch," ")
        return line

def main():
    infile=open("englishi.txt",'r')
    count=10
    words=[]
    data=[]

    # 建立用於計算詞頻的空字典
    wordCounts={}
    for line in infile:
        processLine(line.lower(), wordCounts)#這裡line.lower()的作用是將大寫替換成小寫，方便統計詞頻
    #從字典中獲取資料對
    pairs = list(wordCounts.items())
    #列表中的資料對交換位置,資料對排序
    items = [[x,y]for (y,x)in pairs]
    items.sort()
    #因為sort()函式是從小到大排列，所以range是從最後一項開始取
    for i in range(len(items) - 1, len(items) - count - 1, -1):
        print(items[i][1] + "\t" + str(items[i][0]))
        data.append(items[i][0])
        words.append(items[i][1])

    infile.close()

if __name__ == '__main__':
    main()

統計文章詞頻（python實現）

統計出文章重複詞語是進行文字分析的重要一步，從詞頻能夠概要的分析文章內容。本文將講述如何用python3.6版本實現英文文章詞頻的統計，通過本文也可以對python字典的操作有一定的認識。實現思路：1.輸入文章 2.建立用於詞頻計算的空字典 3.

算法：IP分割問題（python實現）

今天群裏有個朋友出了個題，是一家公司的面試題，題目如下（補充：對於ip0開頭的也是無效的，如分割後001.1.1.1這種是不可以的）：　　分析：這裏我們舉一個最簡單的例子1.1.1.12.2.2.2。首先能想到的解決方法肯定是使用循環了，我們可以寫2個循環嵌套（有點像冒泡排序）從第0個位置截取1個，從

遞歸——漢諾塔問題（python實現）

最大大盤其他 pytho 每次直接 print int b- 規則每次移動一個盤子任何時候大盤子在下面，小盤子在上面方法假設共n個盤子當n=1時：直接把A上的一個盤子移動到C上（A->C）當n=2時：把小盤子從A放到B上（A->

堆排序（Python實現）

int 時間復雜度 pri 開始堆排序空間復雜度繼續末尾小頂堆堆排序（Heap Sort）堆是一棵具有以下性質的完全二叉樹：大頂堆：每個結點的值都大於或等於其左右孩子結點的值小頂堆：每個結點的值都小於或等於其左右孩子結點的值堆排序的主要思想：將

求數組中兩兩相加等於20的組合（Python實現）

def n+1 odi lse java程序員 urn nlogn end 數組題目求數組中兩兩相加等於20的組合。例：給定一個數組[1, 7, 17, 2, 6, 3, 14]，這個數組中滿足條件的有兩對：17+3=20, 6+14=20。解析分為兩個步驟：

支援向量機（Python實現）

這篇文章是《機器學習實戰》（Machine Learning in Action）第六章支援向量機演算法的Python實現程式碼。 1 參考連結（1）支援向量機通俗導論(理解SVM的三層境界) （2）支援向量機—SMO論文詳解（序列最小最優化演算法） 2 實現程式

Logistic迴歸（Python實現）

這篇文章是《機器學習實戰》（Machine Learning in Action）第五章 Logistic迴歸演算法的Python實現程式碼。 1 參考連結機器學習實戰 2 實現程式碼 from numpy import * def loadDataSet():

樸素貝葉斯（Python實現）

這篇文章是《機器學習實戰》（Machine Learning in Action）第四章基於概率論的分類方法：樸素貝葉斯演算法的Python實現程式碼。 1 參考連結機器學習實戰 2 實現程式碼 from numpy import * import feedpa

最短路徑問題（python實現）

解決最短路徑問題：（如下三種演算法）（1）迪傑斯特拉演算法（Dijkstra演算法）（2）弗洛伊德演算法（Floyd演算法）（3）SPFA演算法第一種演算法： Dijkstra演算法廣度優先搜尋解決賦權有向圖或者無向圖的單源最短路徑問題.是一種貪心的策略演算法的思路宣告一

分別用遞迴、迴圈、bisect實現二叉查詢（python實現）

1、遞迴實現二叉查詢 def binary_search_recursion(lst,target,low,high): if high < low: return None middle = (low + high)//2 if lst[middl

一分鐘學會讀csv檔案和寫csv檔案（python實現）

import csv with open('Python-Predict/Data/train.csv') as tra: rdr = csv.reader(tra) items = list(rdr) print("rdr:",rdr) print(items)

leetCode題目--反轉字串（python實現）

題目編寫一個函式，其作用是將輸入的字串反轉過來。示例 1: 輸入: "hello" 輸出: "olleh" 示例 2: 輸入: "A man, a plan, a canal: Panama" 輸出: "amanaP :lanac a ,

LeetCode題目--旋轉影象（python實現）

題目給定一個 n × n 的二維矩陣表示一個影象。將影象順時針旋轉 90 度。說明：你必須在原地旋轉影象，這意味著你需要直接修改輸入的二維矩陣。請不要使用另一個矩陣來旋轉影象。示例 1: 給定 matrix =

LeetCode題目--驗證迴文字串（python實現）

題目給定一個字串，驗證它是否是迴文串，只考慮字母和數字字元，可以忽略字母的大小寫。說明：本題中，我們將空字串定義為有效的迴文串。示例 1: 輸入: "A man, a plan, a canal: Panama" 輸出: true 示例 2:

LeetCode題目--有效的字母異位詞（python實現）

題目給定兩個字串 s 和 t ，編寫一個函式來判斷 t 是否是 s 的一個字母異位詞。示例 1: 輸入: s = "anagram", t = "nagaram" 輸出: true

LeetCode題目--字串中的第一個唯一字元（python實現）

題目給定一個字串，找到它的第一個不重複的字元，並返回它的索引。如果不存在，則返回 -1。案例: s = "leetcode" 返回 0. s = "loveleetcode", 返回 2. 注意事項：您可以假定該字串只包含小寫字母。 p

LeetCode題目--顛倒整數（python實現）

題目給定一個 32 位有符號整數，將整數中的數字進行反轉。示例 1: 輸入: 123 輸出: 321 示例 2: 輸入: -123 輸出: -321 示例 3: 輸入: 120 輸出: 21

LeetCode題目-- 最長公共字首（python實現）

題目編寫一個函式來查詢字串陣列中的最長公共字首。如果不存在公共字首，返回空字串 ""。示例 1: 輸入: ["flower","flow","flight"] 輸出: "fl" 示例 2: 輸入: ["dog",

LeetCode題目--報數（python實現）

題目報數報數序列是指一個整照其中的整數的順序進數序列，按行報數，得到下一個數。其前五項如下： 1. 1 2. 11 3. 21 4. 1211 5. 111221 1 被讀作 "one 1

LeetCode題目--實現strStr() （python實現）

題目實現 strStr() 函式。給定一個 haystack 字串和一個 needle 字串，在 haystack 字串中找出 needle 字串出現的第一個位置 (從0開始)。如果不存在，則返回 -1。示例 1:

統計文章詞頻（python實現）

相關推薦