Python 3.6 利用NLTK 統計多個文字中的詞頻

阿新 • • 發佈：2019-01-26

#!/usr/bin/env python
# encoding: utf-8

"""
@author: wg
@software: PyCharm
@file: word_frequency_statistics.py
@time: 2017/3/16 0016 10:46
"""

import os
import nltk

'''
利用NLTK 統計多個文字中的詞頻
'''

dirs = os.listdir('../../data/大秦帝國/') # 獲取根目錄
dictionary = {} # 空詞典，用於儲存最終的詞頻
stopwords = ['、','（','）','，','。','：','“' 
,'”','\n\u3000','\u3000','的','‘','’'] # 停用詞

'''
def process():
    for d in dirs: #遍歷根目錄下的資料夾
        subdir = os.listdir('../../data/大秦帝國/')
        for f in subdir: # 遍歷資料夾下的檔案
            text = open('', 'r', encoding='utf-8').read() # 讀取文字內容
            print('D:/sogouOutput/'+d+'/'+f)
            fredist = nltk.FreqDist(text.split(' ')) # 獲取單檔案詞頻

            for localkey in fredist.keys(): # 所有詞頻合併。 如果存在詞頻相加，否則新增
                if localkey in stopwords: # 檢查是否為停用詞
                    print('-->停用詞：', localkey)
                    continue
                if localkey in dictionary.keys(): # 檢查當前詞頻是否在字典中存在
                    dictionary[localkey] = dictionary[localkey] + fredist[localkey] # 如果存在，將詞頻累加，並更新字典值
                    print('--> 重複值：', localkey, dictionary[localkey])
                else: # 如果字典中不存在
                    dictionary[localkey] = fredist[localkey] # 將當前詞頻新增到字典中
                    print('--> 新增值：', localkey, dictionary[localkey])
        print('===================================================')
    print(sorted(dictionary.items(), key = lambda  x:x[1])) # 根據詞頻字典值排序，並列印
''' 


def process():
    subdir = os.listdir('../../data/wordcloud/')
    for f in subdir: # 遍歷資料夾下的檔案
        text = open('../../data/wordcloud/'+f, 'r', encoding='utf-8').read() # 讀取文字內容
        print('../../data/wordcloud/'+f)
        fredist = nltk.FreqDist(text.split(' ')) # 獲取單檔案詞頻

        for localkey in fredist.keys(): # 所有詞頻合併。 如果存在詞頻相加，否則新增 

            if localkey in stopwords: # 檢查是否為停用詞
                print('-->停用詞：', localkey)
                continue
            if localkey in dictionary.keys(): # 檢查當前詞頻是否在字典中存在
                dictionary[localkey] = dictionary[localkey] + fredist[localkey] # 如果存在，將詞頻累加，並更新字典值
                print('--> 重複值：', localkey, dictionary[localkey])
            else: # 如果字典中不存在
                dictionary[localkey] = fredist[localkey] # 將當前詞頻新增到字典中
                print('--> 新增值：', localkey, dictionary[localkey])
    print('===================================================')
    print(sorted(dictionary.items(), key = lambda  x:x[1])) # 根據詞頻字典值排序，並列印

if __name__ == '__main__':
    process()

Python 3.6 利用NLTK 統計多個文字中的詞頻

#!/usr/bin/env python # encoding: utf-8 """ @author: wg @software: PyCharm @file: word_frequency_statistics.py @time: 2017/3/16 00

用python統計多個文字中你想統計的單詞

import collections #計數器 import os import string path = "/Users/U/workspace/python learning/show-me-

Python 3.6 利用psutil 獲取伺服器磁碟資訊

獲取磁碟完整資訊 [[email protected] python_auto]# vim disk.py !/usr/bin/env python import psutil disk = psutil.disk_partitions() #利用psu

python例項：快速找出多個字典中的公共鍵

1.生成隨機字典 # 從abcdefg 中隨機取出 3-6個，作為key， 1-4 的隨機數作為 value s1 = {x : randint(1, 4) for x in sample('abcdefg', randint(3, 6))} 方法1 用集合方法 s1 = {'c':

利用Comparator根據多個Map中某個共同屬性的value值對其進行排序

最近在工作中遇到一個場景，需要對List<Map<String, String>>這樣的結構進行排序，完成此功能後感覺這是一個通用方法，故將此記錄下來，留待以後可能之使用。其具體情景為，當下有一個List，其中Map結構均相似，且存在一共同屬性ke

如何利用anaconda管理多個python環境

電腦本身安裝了anaconda3（自帶python3.6）的條件下，想要下載python2.7並共存。參考部落格：http://www.cnblogs.com/yamin/p/7111397.html 我先是從官網下載了python2.7，並手動拖到anaconda->envs目錄下

Python 3.6:多型的實現

多型的作用不用多說,C++用如下條件來實現多型: 要有繼承要有虛擬函式函式重寫要有父類指標（父類引用）指向子類物件實際上C++使用VPTR指標來完成這個事情，其是設計模式的基礎，軟體分層的基石。最近看了一下Python，很欣慰python3.6(因為我學的時候已經

《統計學習方法》的Python 3.6復現，實測可用

選自Github，作者：黃海廣。《統計學習方法》可以說是機器學習的入門寶典，許多機器學習培訓班、網際網路企業的面試、筆試題目，很多都參考這本書。機器之心近期發現了一個 GitHub 專案，其用 Python 復現了課程內容，並提供這本書的程式碼實現和課件。實現程式碼的配置環境是 Python 3.

X Chen筆記---CentOS 6&7 安裝使用多個GCC版本（GCC4.9，GCC5.3，GCC6.2）

從CentOS6開始，CentOS自身提供了一種方式可以使用Scientific Linux distribution發行版的devtoolset-*來解決。具體使用方式如下： 1）安裝scl釋出源：yum install centos-release-scl-rh

利用Python將一個Excel拆分為多個Excel

原始文件如下圖所示將銷售部門一、二、三科分別存為三個Excel程式碼如下# -*- coding: utf-8 -*- """ Created on Mon Jul 9 20:25:31 2018 @author: Lenovo """ import pandas as

Python+Selenium框架設計篇之6-一個類檔案多個測試方法情況下測試韌體的寫法

其實，到前面這一篇文章，簡單的Python+Selenium自動化測試框架就已經算實現了。接下來的主要是介紹，unittest管理指令碼，如何如何載入執行指令碼，再就是採用第三方外掛，實現輸出html的測試報告。本文來介紹下，在同一個類中，多個測試函式時候，測試

python利用pandas對多個資料夾裡的excel進行合併，切割

程式碼如下 import os import pandas as pd df = pd.DataFrame(columns=['流水號','事件名稱','本方戶名','對方戶名','流水時間','操作員','交易額','流水標誌','扇區號']) l = []

Python統計多個Powerpoint檔案中幻燈片總數量

晚上吃飯時突然想知道自己做了多少頁《Python程式設計》系列教材的配套PPT，於是就有了下面的程式碼，這套PPT綜合了《Python程式設計基礎》（ISBN：9787302410584）、《Python程式設計（第2版）》（ISBN：9787302436515）和《Pyt

centos 6.9安裝python 3.6

令行啟用 cal 頭部 fig org conf 源碼包下載 1、下載源碼包在官網按照需要下載到本地 wget https://www.python.org/ftp/python/3.6.1/Python-3.6.1.tgz 2、解壓源碼包 tar -

Python 3.6 使用 pyinstaller 打包exe文件遇到的問題

python pyinstaller 自己做了一個加密解密的小軟件，想打包成exe文件。在網上搜發現pyinstaller使用起來簡單點。在這裏記錄自己遇到問題使用的是Python 3.6版本，直接使用pip安裝pip install pyinstaller安裝過程很順利，安裝的是3.2.1版本使用看

Python 3.6學習筆記（一）

示例 ror 功能 put -m 但是對象初始化 absolut 開始之前基礎示例 Python語法基礎，python語法比較簡單，采用縮緊方式。 # print absolute value of a integer a = 100 if a >= 0:

Python 3.6.1 安裝

-- rip nump com baidu .whl 都是下載 sci 1.下載所需的python3.6.exe 我已下載好放在 http://pan.baidu.com/s/1pLQCyyJ 2.裏面的組件都是官網下載的，操作系統64位 3. 找到python 的安

Windows7 Python-3.6 安裝PyCrypto(pycrypto 2.6.1)出現錯誤以及解決方法

windows python pycrypto 今天準備在Windows系統上基於python3.6安裝一個pycrypto 2.6.1模塊，很不幸的報了一堆錯誤，如下所示：running installrunning buildrunning build_pyrunning build_extw

通過遊戲學python 3.6 第一季第三章實例項目猜數字遊戲--核心代碼--猜測次數--隨機函數和屏蔽錯誤代碼--優化代碼及註釋可復制直接使用娛樂可封裝函數

nbsp 退出而不是判斷 and 封裝 except 次數 img 1 #猜數字--核心代碼--猜測次數--隨機函數和屏蔽錯誤代碼---優化代碼及註釋 2 3 import random 4 number = random.randint(1,

通過遊戲學python 3.6 第一季第九章實例項目猜數字遊戲--核心代碼--猜測次數--隨機函數和屏蔽錯誤代碼--優化代碼及註釋--簡單賬號密碼登陸--賬號的註冊查詢和密碼的找回修改--鎖定賬號--鎖定次數--菜單功能'menufile

lock isp 無限循環 lis true 條件判斷 elif bre format 通過遊戲學python 3.6 第一季第九章實例項目猜數字遊戲--核心代碼--猜測次數--隨機函數和屏蔽錯誤代碼--優化代碼及註釋--簡單賬號密碼登陸--賬號的註冊查詢和密碼的

Python 3.6 利用NLTK 統計多個文字中的詞頻

相關推薦