Python：詞頻統計及排序

阿新 • • 發佈：2020-08-14

對一段文字，想要統計各種詞語出現的次數，即詞頻統計，思路是先分詞，再進行數量統計、排序。

分詞可以用jieba庫，同時snownlp庫也是可以實現的。

jieba一般可以直接用jieba.lcut('你的文字內容abcdefg。。。')即可，非常簡單。

snownlp除了分詞還能實現轉繁體、情感分類等等功能，可以參考這篇：

https://www.cnblogs.com/zhuminghui/p/10953717.html

分詞結果一般是列表形式，例如：

>>> txt="我是中國人，我愛中國。中國位於亞洲。"
>>> jieba.lcut(txt)
['我', '是', '中國', '人', '，', '我', '愛', '中國', '。', '中國', '位於', '亞洲', '。']

下面進行數量統計。

思路：每個詞有個頻數，這個形式用鍵值對來表示就非常合適了。因此用字典的方式。

txt = "我是中國人，我愛中國。中國位於亞洲。"
fenci = jieba.lcut(txt)
>>> d = {}
>>> for c in fenci:
	d[c] = d.get(c,0) + 1

>>> d
{'我': 2, '是': 1, '中國': 3, '人': 1, '，': 1, '愛': 1, '。': 2, '位於': 1, '亞洲': 1}

d.get(c,0)的功能是：返回字典d中，鍵為c的元素的對應值，如果目前沒有鍵為c的元素，則返回0。

如果不想要標點符號或一些停用詞，可以在迴圈里加判斷來篩選。如果停用詞比較多，可以搜停用詞表。

例如： https://github.com/goto456/stopwords

接下來再把字典轉換為屬性的列表即可。

方法1（不排序）：

>>> L = []
>>> for key in d:
	L.append('{}:{}'.format(key, d[key]))

>>> L
['我:2', '是:1', '中國:3', '人:1', '，:1', '愛:1', '。:2', '位於:1', '亞洲:1']

不過做詞頻統計，一般都是關注頻率高的詞，要做排序，因此推薦下述的方法。

方法2（排序）：

>>> M = list(d.items())
>>> M.sort(key = lambda x:x[1], reverse = True)
>>> M
[('中國', 3), ('我', 2), ('。', 2), ('是', 1), ('人', 1), ('，', 1), ('愛', 1), ('位於', 1), ('亞洲', 1)]

這裡使用了匿名函式的方法。

匿名函式的格式是： lambda 引數:表示式，這樣寫比def來的更簡單。

例如，要實現兩個數相乘：

##常規方法
>>> def f(x,y):    
...     return x*y
>>> f(3,4)
12

##匿名函式
>>> func = lambda x,y:x*y
>>> func(3,4)
12

另外就是列表的sort方法中，可以設一個引數key，主要是用來進行比較的元素，只有一個引數，具體的函式的引數就是取自於可迭代物件中，指定可迭代物件中的一個元素來進行排序。

Python：詞頻統計及排序

對一段文字，想要統計各種詞語出現的次數，即詞頻統計，思路是先分詞，再進行數量統計、排序。

Python函式引數型別及排序原理總結

這篇文章主要介紹了Python函式引數型別及排序原理總結,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

09 使用python完成詞頻統計

技術標籤：pythonlinux大資料hadoopubuntu 1 系統、軟體以及前提約束 CentOS-7 64 為減少linux許可權對初學者造成影響，所有命令均在linux的root許可權下進行操作。已安裝hadoop-2.5.2 https://www.jianshu.com

Python實現Mysql資料統計及numpy統計函式

Python實現Mysql資料統計的例項程式碼如下所示： import pymysql import xlwt excel=xlwt.Workbook(encoding=\'utf-8\')

Python英文文章詞頻統計(14份劍橋真題詞頻統計)

Python劍橋真題詞頻統計最好還是要學以致用，自主蒐集了19年最近的14份劍橋真題之後，通過Python提供的jieba第三方庫，對所有的文章資訊進行了詞頻統計，並選擇性地剔除了部分簡易詞彙，比如數字，普通冠詞等，博主

Python：多執行緒及多程序的使用-Threading and multiprocessing

程序：由程式,資料集,程序控制塊三部分組成，它是程式在資料集上的一次執行過程。如果同一段程式在某個資料集上運行了兩次，那就是開啟了兩個程序。程序是資源管理的基本單位。在作業系統中,每個程序有一個地址空間,

【4-1】基於Python-unittest運用：unittest介紹及例項

該第四章節是最重要的基礎：unittest 1. 什麼是unittest？ unittest是python的標準測試庫，相比於其他測試框架是python目前使用最廣的單元測試框架。

《Java從入門到失業》第三章：基礎語法及基本程式結構（3.9）：陣列（陣列基本使用、陣列的迴圈、陣列拷貝、陣列排序、多維陣列）

3.9陣列 3.9.1陣列基本使用陣列，英文叫Array，是一種資料結構，是用來存放同一資料型別數值的集合。例如存放30個int型數值、存放100個double型數值等等。

python使用jieba實現簡單的詞頻統計

import jieba def getText(): txt=open(\"hamlet.txt\",\"r\").read() txt=txt.lower() for ch in \'|\"#$%&()*+,-./:;<>+?@[\\\\]^_{|}~\':

第八次：Hive 操作與應用詞頻統計

一、hive用本地檔案進行詞頻統計 1.準備本地txt檔案 1 2 echo \"hadoop hbase\" > f1.txt

Python：解析PDF文字及表格——pdfminer、tabula、pdfplumber 的用法及對比

pdf 是個異常坑爹的東西，有很多處理 pdf 的庫，但是沒有完美的。一、pdfminer3k

Python：7-2 找出肇事者，迴圈與布林邏輯（高教社，《Python程式設計基礎及應用》習題6-6） (7分)

技術標籤：PTA習題答案--Pythonpython演算法在視線不太好的黑夜一司機撞傷行人之後逃逸，有3個目擊者記住了該車的部分車號特徵。甲說：“車牌號的前兩位相同，且末位數是奇數”；乙說：“車牌號的後兩位加起來

Python：6-1 設計一元二次方程求解類（高教社，《Python程式設計基礎及應用》習題9-4） (4分)

技術標籤：PTA習題答案--Python 設計一個類Root來計算ax2+bx+c=0的根。該類包括：a、b、c共3個屬性表示方程的3個係數，getDiscriminant()方法返回b2-4ac, getRoot1()和getRoot2()返回方程的兩個根。其中，getRo

Python專案部署Ubuntu：uwsgi——安裝及問題解決及配置檔案

uwsgi安裝及問題解決不管在系統環境還是docker內，系統會有自帶的uwsgi，顯然不能用系統的uwsgi，因為預設python直譯器永遠是python2.7

Python詞頻統計的3種方法

技術標籤：python 大家好，我是小小明。上次，我分享了《100毫秒過濾一百萬字文字的停用詞》，這次我將分享如何進行詞頻統計。

浙大版《Python 程式設計》題目集第7章-1 詞頻統計

技術標籤：# Python學習筆記python 第7章-1 詞頻統計 import sys s = sys.stdin.read()#系統標準輸入模組一次讀入

詞頻統計方案與具體實現-elasticsearch、spark、python

詞頻自用，侵刪詞頻統計方案與具體實現-elasticsearch、spark、python 方案一、基於ElasticSearch方式

藍橋杯：成績統計————Python

技術標籤：藍橋杯python演算法題目試題 F: 成績統計時間限制: 1.0s 記憶體限制: 512.0MB 本題總分：15 分

python 取一維陣列的第一個數字_python：37.數字在排序陣列中出現的次數

技術標籤：python 取一維陣列的第一個數字題目描述統計一個數字在排序陣列中出現的次數。

字元統計及重排的python實現

題目給出一個僅包含字母的字串，不包含空格，統計字串中各個字母（區分大小寫）出現的次數，並按照字母出現次數從大到小的順序輸出各個字母及其出現次數。如果次數相同，按照自然順序進行排序，且小寫字母在大寫字母

Python：詞頻統計及排序

相關推薦