Python讀書筆記009：文字統計

阿新 • • 發佈：2019-01-22

文字檔案的統計資料：

>>> len(s)
46
>>> s.split()
['A', 'long', 'time', 'ago,', 'in', 'a', 'galaxy', 'far,', 'far', 'away...']
>>> t = ' a long time ago in a galaxy far far away'
>>> t.split()
['a', 'long', 'time', 'ago', 'in', 'a', 'galaxy', 'far', 'far', 'away']
>>> len(t.split())
10
>>> set(t.split())
{'in', 'away', 'ago', 'far', 'a', 'galaxy', 'time', 'long'}
>>> len(set(t.split()))
8

保留想要的字母

將字串轉換成小寫：

>>> s = "I'd like a copy!"
>>> s.lower()
"i'd like a copy!"

刪除不想要的字元：

>>> s = "I'd like a copy!"
>>> s.replace('!','')
"I'd like a copy"
>>> s.replace("'",'')
'Id like a copy!'
>>> s.replace("'",' ')
'I d like a copy!'

keep = {'a', 'b', 'c', 'd', 'e', 'f', \
        'g', 'h', 'i', 'j', 'k', 'l', \
        'm', 'n', 'o', 'p', 'q', 'r', \
        's', 't', 'u', 'v', 'w', 'x', \
        'y', 'z', ' ', '-', "'"}

def normalize(s):
    '''
    Convert s to a normatlized string
    '''
    result = ''
    for c in s.lower():
        if c in keep:
            result +=c
    return result

>>> s = "I'd like a copy!"
>>> normalize(s)
"i'd like a copy"

文字統計：

keep = {'a', 'b', 'c', 'd', 'e', 'f', \
        'g', 'h', 'i', 'j', 'k', 'l', \
        'm', 'n', 'o', 'p', 'q', 'r', \
        's', 't', 'u', 'v', 'w', 'x', \
        'y', 'z', ' ', '-', "'"}

def normalize(s):
    '''
    Convert s to a normatlized string
    '''
    result = ''
    for c in s.lower():
        if c in keep:
            result +=c
    return result

def make_freq_dict(s):
    '''
    Returns a dictionary whose keys
    are the words of s, and whose
    value are the counts of those
    words.
    '''
    s = normalize(s)
    words = s.split()
    d = {}
    for w in words:
        if w in d:
            d[w] +=1
        else:
            d[w] =1
    return d

def print_file_stats(fname):
    '''
    Print statistics for the given file.
    '''
    s = open(fname,'r').read()
    num_chars = len(s)
    num_lines = s.count('\n')
    d = make_freq_dict(s)
    num_words = sum(d[w] for w in d)

    lst = [(d[w],w) for w in d]
    lst.sort()
    lst.reverse()

    print("The file '%s' has" % frame)
    print("    %s characters" % num_chars)
    print("    %s lines"      % num_lines)
    print("    %s words"      % num_words)
    print("\nThe top 10 most frequent words are:")

    i=1
    for count, word in lst[:10]:
        print('%2s. %2s %s' %(i, count, word))
        i +=1

>>> frame="e://Python//The Babes.txt"
>>> print_file_stats(frame)
The file 'e://Python//The Babes.txt' has
    148319 characters
    3118 lines
    23817 words

The top 10 most frequent words are:
 1. 1253 the
 2. 746 and
 3. 675 to
 4. 657 of
 5. 496 her
 6. 436 a
 7. 383 in
 8. 352 she
 9. 261 you
10. 259 daph

Python讀書筆記009：文字統計

文字檔案的統計資料：>>> len(s) 46 >>> s.split() ['A', 'long', 'time', 'ago,', 'in', 'a', 'galaxy', 'far,', 'far', 'away...'] >&

Python讀書筆記008：面向物件程式設計

編寫類：class Person: ''' Class to represent a person ''' def __init__(self): self.name = '' self.age = 0>&

Python讀書筆記006：I/O

設定字串格式：1、字串插入>>> x=1/81 >>> x 0.012345679012345678 >>> print('value: %.2f' % x) value: 0.01 >>> print(

某大佬的Python讀書筆記：70個註意的小Notes對於初學者十分友好

位置 list 創建字符串參與 ssa 數據靈活運用普通摘要：在閱讀python相關書籍中，對其進行簡單的筆記紀要。旨在註意一些細節問題，在今後項目中靈活運用，並對部分小notes進行代碼標註。作者：白寧超 35使用多個列表。用法： 36

這是一篇python讀書筆記：13個案列乾貨十足，細節決定成敗

1.[a:b) 在使用list時，我們會常常使用左右區間的位置來賦值(range)或刪除(del)其中的值。一定記住這個區間是一個左閉右開的區間； >>>a = range(1,6) >>>a [1,2,3,4,

《Python Testing Cookbook》讀書筆記之一：單元測試

Python Testing Cookbook 讀書筆記 pythontesting Chapter 1: Using Unittest To Develop Basic Tests 配置虛擬環境在開始寫程式碼測試前，先建立一個獨立的測試開發環境，這樣可以避免各種包和現有開發環境互相影響，適

Python程式設計入門-第11章案例研究：文字統計

第11章案例研究：文字統計計算並列印有關文字檔案內容的統計資料：包含多少個字元、行和單詞，以及出現最多的10個單詞，並依此排列出。 #先定義一個規整文字字元的函式 def normalize(s): keep={'a','b','c','d

《大型網站技術架構：核心原理與案例分析》-- 讀書筆記 (5) ：網購秒殺系統

案例並發刷新隨機 url 對策 -- 技術動態生成 1. 秒殺活動的技術挑戰及應對策略 1.1 對現有網站業務造成沖擊秒殺活動具有時間短，並發訪問量大的特點，必然會對現有業務造成沖擊。對策：秒殺系統獨立部署 1.2 高並發下的應用、

《你必須知道的.NET》讀書筆記一：小OO有大智慧

實現職責可靠性基本 code cfile 生存最好 min() 此篇已收錄至《你必須知道的.Net》讀書筆記目錄貼，點擊訪問該目錄可以獲取更多內容。一、對象　（1）出生：系統首先會在內存中分配一定的存儲空間，然後初始化其附加成員，調用構造函數執行初始化，這

python學習筆記2：字符串

nbsp 大小 alpha .com format 大小寫 fin 判斷大小 key python學習筆記2：字符串總結：字符串是不可變變量，不能通過下標修改其值　　　字符串的方法都不會改變字符串原來的值，而是新生成一個字符串一、3種寫法——單引號，雙引號，三引號　

Python學習筆記六：文件處理

alt 筆記 lin 系統顯式當前位置 open 刷新大小一：打開文件 open(name,mode,[bufferSize]) name：文件路徑 mode：文件打開方式二：文件讀取 read()方法：可以一次讀取文件的全部內容，Python把內容讀到

Python學習筆記3：簡單文件操作

name n) popu 元素 close nes pla () eof # -*- coding: cp936 -*- # 1 打開文件 # open(fileName, mode) # 參數：fileName文件名稱 # mode打開方式 # w

python學習筆記9：正則表達式

使用引入常用常用的正則表達式需要 style pan 表達式 span 一、簡介　　正則表達式就是用來查找字符串的；用來匹配一些比較復雜的字符串。　　使用正確表達式需要引入re模塊（regular定期的有規律的）　　二、匹配字符串的方法

python學習筆記8：異常處理

mage 可能 str 裏的 tro 信息學習筆記異常信息常見一、異常處理　　在程序運行過程中，總會遇到各種各樣的錯誤。　　程序一出錯就停止運行了，那我們不能讓程序停止運行吧，這時候就需要捕捉異常了，通過捕捉到的異常，我們再去做對應的處理。　　如下，寫段代碼，

python學習筆記9：面向對象編程，類

數據相同屬性技術 -o 必須是把 oop ack 繼承一、面向對象編程　　面向對象--Object Oriented Programming，簡稱oop，是一種程序設計思想。　　還有另一種程序設計思想——面向過程編程。面向過程的思想是把一個項目、一件事情按照一定

Head First Python 學習筆記-Chapter3：文件讀取和異常處理

獲取 for循環文件處理 pyhton find ont ren app 第三章中主要介紹了簡單的文件讀取和簡單的異常處理操作。首先建立文件文件夾：HeadFirstPython\chapter3，在Head First Pythong官方站

Python學習筆記五：字符串常用操作，字典，三級菜單實例

rip .get isalnum 變量名 cde tro 分割字母 isdigit 字符串常用操作 7月19日，7月20日，7月22日，7月29日，8月29日，2月29日首字母大寫：a_str.capitalize() 統計字符串個數：a_str.count(“x”)

Python學習筆記七：文件操作

dex enc 只讀 python nco 打印如何 == continue 文件操作對照一個word文件的操作方式，來體會文件操作的內容打開文件：f=open(“file”)，提示編碼錯誤，windows默認是GBK f=open(“file”,encoding=”

《大型網站技術架構》讀書筆記一：大型網站架構演化

硬件解決方案更新獨立流量操作大型網站技術架構負責思維導圖一、大型網站系統特點　　（1）高並發、大流量：PV量巨大　　（2）高可用：7*24小時不間斷服務　　（3）海量數據：文件數目分分鐘xxTB 　　（4）用戶分布廣泛，網絡情況復雜：網絡運營

《黑客攻防技術寶典Web實戰篇@第2版》讀書筆記1：了解Web應用程序

金融主機 border ket 邊界輕量在線讀書目的讀書筆記第一部分對應原書的第一章，主要介紹了Web應用程序的發展，功能，安全狀況。 Web應用程序的發展歷程早期的萬維網僅由Web站點構成，只是包含靜態文檔的信息庫，隨後人們發明了Web瀏覽器用來檢索和

Python讀書筆記009：文字統計

相關推薦