Python 資料分析之逐塊讀取文字的實現

阿新 • • 發佈：2020-12-15

背景

《利用Python進行資料分析》，第 6 章的資料載入操作 read_xxx，有 chunksize 引數可以進行逐塊載入。

經測試，它的本質就是將文字分成若干塊，每次處理 chunksize 行的資料，最終返回一個TextParser 物件，對該物件進行迭代遍歷，可以完成逐塊統計的合併處理。

示例程式碼

文中的示例程式碼分析如下：

from pandas import DataFrame,Series
import pandas as pd
 
path='D:/AStudy2018/pydata-book-2nd-edition/examples/ex6.csv'
# chunksize return TextParser
chunker=pd.read_csv(path,chunksize=1000)
 
# an array of Series
tot=Series([])
chunkercount=0
for piece in chunker:
	print '------------piece[key] value_counts start-----------'
	#piece is a DataFrame,lenth is chunksize=1000,and piece[key] is a Series,key is int,value is the key column
	print piece['key'].value_counts()
	print '------------piece[key] value_counts end-------------'
	#piece[key] value_counts is a Series,key is the key column,and value is the key count
	tot=tot.add(piece['key'].value_counts(),fill_value=0)
	chunkercount+=1
 
#last order the series
tot=tot.order(ascending=False)
print chunkercount
print '--------------'

流程分析

首先，例子資料 ex6.csv 檔案總共有 10000 行資料，使用 chunksize=1000 後，read_csv操作返回一個 TextParser 物件，該物件總共有10個元素，遍歷過程中列印 chunkercount驗證得到。

其次，每個 piece 物件是一個 DataFrame 物件，piece['key'] 得到的是一個 Series 物件，預設是數值索引，值為 csv 檔案中的 key 列的值，即各個字串。

將每個 Series 的 value_counts 作為一個Series，與上一次統計的 tot 結果進行 add 操作，最終得到所有塊資料中各個 key 的累加值。

最後，對 tot 進行 order 排序，按降序得到各個 key 的值在 csv 檔案中出現的總次數。

這裡很巧妙了使用 Series 物件的 add 操作，對兩個 Series 執行 add 操作，即合併相同key：key相同的記錄的值累加，key不存在的記錄設定填充值為0。

輸出結果為：

在這裡插入圖片描述

到此這篇關於Python 資料分析之逐塊讀取文字的實現的文章就介紹到這了,更多相關Python 逐塊讀取文字內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

Python 資料分析之逐塊讀取文字的實現

背景《利用Python進行資料分析》，第 6 章的資料載入操作 read_xxx，有 chunksize 引數可以進行逐塊載入。

基於Python資料分析之pandas統計分析

pandas模組為我們提供了非常多的描述性統計分析的指標函式，如總和、均值、最小值、最大值等，我們來具體看看這些函式：

Python資料分析之全球人口資料

這篇文章用pandas對全球的人口資料做個簡單分析。我收集全球各國1960-2019年人口資料，包含男女和不同年齡段，共6個檔案。

Python資料分析之亞馬遜股價

今天用Python簡單分析一下亞馬遜上市至今的股價，沒有太多實質性的東西，但學學技術還可以。主要包括下面幾個方面：

python資料分析之Numpy資料庫第三期陣列的運算

上期陣列的索引和切片的知識總結通道：陣列和標量間的運算陣列之所以強大而且重要的原因，是其不需要通過迴圈就可以完成批量計算，也就是向量化

Python資料分析（jupyter notebook上實現）

import pandas as pd import matplotlib.pyplot as plt plt.rcParams[\'font.sans-serif\'] = [\'SimHei\']# 用來正常顯示中文標籤

Python資料分析之雙色球基於線性迴歸演算法預測

@本文來源於公眾號：csdn2299，喜歡可以關注公眾號程式設計師學府本文例項講述了Python資料分析之雙色球基於線性迴歸演算法預測下期中獎結果。分享給大家供大家參考，具體如下：

python資料分析工具之 matplotlib詳解

不論是資料探勘還是數學建模，都免不了資料視覺化的問題。對於 Python 來說，matplotlib 是最著名的繪相簿，它主要用於二維繪圖，當然也可以進行簡單的三維繪圖。它不但提供了一整套和 Matlab 相似但更為豐富的命令，

python 資料分析實現長寬格式的轉換

我就廢話不多說了，大家還是直接看程式碼吧！ # encoding=utf-8 import numpy as np import pandas as pd

3-python資料分析-DataFrame級聯與合併操作鞏固之人口分析案例

需求匯入檔案，檢視原始資料將人口資料和各州簡稱資料進行合併將合併的資料中重複的abbreviation列進行刪除

Python資料分析基礎——CSV檔案——讀取多個CSV檔案

技術標籤：python資料分析資料分析python 參考文獻：《Python資料分析基礎》前言

python資料分析-控制語句之json檔案解析

技術標籤：pythonjson 一、簡介 1、Json是Javascrip物件表示法，json格式是一種輕量級的文字轉換格式，擁有儲存空間小，處理速度快等優勢。 2、Json已經成為Web瀏覽器和其他應用間通過HTTP請求傳送資料的標準格式

【python資料分析（12）】Pandas實現對Excel列表資料整合（merge縱向合併、concat橫向連線）

1. 背景在進行表格操作的時候，經常需要將兩個excel表格資料進行橫向合併，或者對原有的資料進行縱向擴充，這時候，就可以使用Pandas裡面的 merge 縱向合併和 concat 橫向連線功能了，如下：

Python 資料分析微專業課程--專案08 中國姓氏排行研究1.專案說明2.專案具體要求3.實現思路：4.實現過程：5.總結

1.專案說明對姓氏戶籍地和工作地資料進行清洗、整合，獲得姓氏的戶籍城市及其經緯度，工作地城市及其經緯度。然後對資料進行分析，分析姓氏TOP20，取其中某幾個姓氏分析其在全國的分佈，根據戶籍地與工作地的經緯度

python資料分析處理庫-Pandas資料讀取、索引與計算

_Pandas資料讀取、索引與計算 _ Pandas資料結構為DataFrame，裡面可以同時是int、float、object（string型別時）、datatime、bool資料型別

Python資料儲存之 h5py詳解

1、Python資料儲存（壓縮）（1）numpy.save,numpy.savez,scipy.io.savemat numpy和scipy內建的資料儲存方式。

Python資料分析pandas模組用法例項詳解

本文例項講述了Python資料分析pandas模組用法。分享給大家供大家參考，具體如下：

Python資料分析模組pandas用法詳解

本文例項講述了Python資料分析模組pandas用法。分享給大家供大家參考，具體如下：

python資料處理之如何選取csv檔案中某幾行的資料

前言有些人看到這個問題覺得不是問題，是嘛，不就是df.col[]函式嘛，其實忽略了一個重點，那就是我們要省去把csv檔案全部讀取這個過程，因為如果在面臨億萬級別的大規模資料，得到的結果就是boom，boom，boom。

python資料分析:關鍵字提取方式

TF-IDF TF-IDF（Term Frequencey-Inverse Document Frequency）指詞頻-逆文件頻率，它屬於數值統計的範疇。使用TF-IDF，我們能夠學習一個詞對於資料集中的一個文件的重要性。

Python 資料分析之逐塊讀取文字的實現

背景

示例程式碼

流程分析

相關推薦