Python計算大檔案行數方法及效能比較

阿新 • • 發佈：2020-08-12

如何使用Python快速高效地統計出大檔案的總行數, 下面是一些實現方法和效能的比較。

1.readline讀所有行
使用readlines方法讀取所有行:

def readline_count(file_name):
    return len(open(file_name).readlines())

2.依次讀取每行
依次讀取檔案每行內容進行計數:

def simple_count(file_name):
    lines = 0
    for _ in open(file_name):
        lines += 1
    return lines

3.sum計數
使用sum

函式計數:

def sum_count(file_name):
    return sum(1 for _ in open(file_name))

4.enumerate列舉計數:

def enumerate_count(file_name):
    with open(file_name) as f:
        for count, _ in enumerate(f, 1):
            pass
    return count

5.buff count
每次讀取固定大小,然後統計行數:

def buff_count(file_name):
    with open(file_name, 'rb') as f:
        count = 0
        buf_size = 1024 * 1024
        buf = f.read(buf_size)
        while buf:
            count += buf.count(b'\n')
            buf = f.read(buf_size)
        return count

6.wc count
呼叫使用wc命令計算行:

def wc_count(file_name):
    import subprocess
    out = subprocess.getoutput("wc -l %s" % file_name)
    return int(out.split()[0])

7.partial count
在buff_count基礎上引入partial:

def partial_count(file_name):
    from functools import partial
    buffer = 1024 * 1024
    with open(file_name) as f:
        return sum(x.count('\n') for x in iter(partial(f.read, buffer), ''))

8.iter count
在buff_count基礎上引入itertools模組 :

def iter_count(file_name):
    from itertools import (takewhile, repeat)
    buffer = 1024 * 1024
    with open(file_name) as f:
        buf_gen = takewhile(lambda x: x, (f.read(buffer) for _ in repeat(None)))
        return sum(buf.count('\n') for buf in buf_gen)

下面是在我本機 4c8g python3.6的環境下,分別測試100m、500m、1g、10g大小檔案執行的時間，單位秒：

方法	100M	500M	1G	10G
readline_count	0.25	1.82	3.27	45.04
simple_count	0.13	0.85	1.58	13.53
sum_count	0.15	0.77	1.59	14.07
enumerate_count	0.15	0.80	1.60	13.37
buff_count	0.13	0.62	1.18	10.21
wc_count	0.09	0.53	0.99	9.47
partial_count	0.12	0.55	1.11	8.92
iter_count	0.08	0.42	0.83	8.33

Python計算大檔案行數方法及效能比較

如何使用Python快速高效地統計出大檔案的總行數, 下面是一些實現方法和效能的比較。

Linux下設定最大檔案開啟數nofile及nr_open、file-max（OK）

在開發運維的時候我們常常會遇到類似“Socket/File: Can’t open so many files”，“無法開啟更多程序”，或是coredump過大等問題，這些都可以設定資源限制來解決。今天在教某位客戶設定最大檔案數方法時，搜尋網上

python讀取大檔案的幾種方法

在 python 中，當我們讀取一個本地 TextIO 檔案時，最常用的方式是用read、readline和readlines這三個方法。

淺談mysql 系統使用者最大檔案開啟數限制

紙上得來終覺淺，絕知此事多宕機...記錄一下自己很蠢的一次故障處理過程。

簡單瞭解Python讀取大檔案程式碼例項

這篇文章主要介紹了簡單瞭解Python讀取大檔案程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

基於Python實現大檔案分割和命名指令碼過程解析

日誌檔案分割、命名工作中經常會收到測試同學、客戶同學提供的日誌檔案，其中不乏幾百M一G的也都有，畢竟壓測一晚上產生的日誌量還是很可觀的，xDxD，因此不可避免的需要對日誌進行分割，通常定位問題需要針對時間

python實現統計程式碼行數的小工具

一個用python實現的統計程式碼行數的小工具，供大家參考，具體內容如下實現功能

詳解python破解zip檔案密碼的方法

1、單執行緒破解純數字密碼注意：不包括數字0開頭的密碼 import zipfile,time,sys

python計算波峰波谷值的方法（極值點）

python求極值點主要用到scipy庫。 1. 首先可先選擇一個函式或者擬合一個函式，這裡選擇擬合數據：np.polyfit

python實現FTP檔案傳輸的方法（伺服器端和客戶端）

用python實現FTP檔案傳輸，包括伺服器端和客戶端，要求（1）客戶端訪問伺服器端要有一個驗證功能

python常用操作檔案和目錄方法（os模組）

python內建os模組直接呼叫系統提供的介面函式。 1.檢視作業系統型別 >>> os.name # 作業系統型別

python開啟音樂檔案的例項方法

按推薦順序排列 1、使用playsound庫 fromplaysoundimportplaysound playsound(\'xx.mp3\') 2、使用pygame庫

Linux 程序開啟最大檔案連線數Too many open files

首先出現這個提示的原因：應用程式開啟的檔案數量超過了系統設定值。如何檢視當前系統每個使用者最大允許開啟檔案數量：

12.mysql匯入大批量資料的方法及優化

1.load方式匯入本地資料 1.環境準備建立表: CREATE TABLE `tb_user_2` ( `id` int(11) NOT NULL AUTO_INCREMENT,

python中Django檔案上傳方法詳解

Django上傳檔案最簡單最官方的方法 1.配置media路徑在settings.py中新增如下程式碼：

python讀取大檔案的時候怎麼避免大量佔用記憶體

# -*- coding: UTF-8 -*- \'\'\' ================================================= @Project -> File：chuankou_test -> 03.py

python建立文字檔案的簡單方法

python open() 函式以指定模式開啟一個檔案，建立一個file物件，相關的方法才可以呼叫它進行讀寫。

JavaScript 如何計算文字的行數的實現

需求：根據行數決定是否限制展開和收起。思路：用2個塊統計行高，一個不加高度限制用來統計行數(css隱藏)，一個加高度限制用來顯示(加高度限制會導致統計行數不準)

python打包多型別檔案的操作方法

環境win10,python3.7，pyinstaller3.6 一下載pyinstaller （1）cmd中pip install pyinstaller （2）pycharm中file—settings—project Interpreter----右上角‘+\'----搜尋puinstaller----install package

用Python實現大檔案分割

用Python實現大檔案分割 python程式碼如下： import sys,os kilobytes = 1024 megabytes = kilobytes*1000

Python計算大檔案行數方法及效能比較

相關推薦