【python 處理億級資料】使用 Pandas 處理億級資料

阿新 • • 發佈：2019-01-04

此前有一篇文章《別老扯什麼Hadoop了，你的資料根本不夠大》指出：只有在超過5TB資料量的規模下，Hadoop才是一個合理的技術選擇。事實確實如此，在資料分析領域，那麼如何處理億級資料呢，pandas提供了IO工具可以將大檔案分塊讀取，測試了一下效能,非常不錯。可謂是瑞士中的軍刀

python 讀取億級資料程式碼如下：

# encoding: utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import time
import pandas as pd

time1=time.time()
import pandas as 
 pd
# Pandas提供了IO工具可以將大檔案分塊讀取
# 使用不同分塊大小來讀取再呼叫 pandas.concat 連線DataFrame，chunkSize設定在1000萬條左右速度優化比較明顯。
# 實驗結果足以說明，在非">5TB"資料的情況下，Python的表現已經能讓擅長使用統計分析語言的資料分析師遊刃有餘。
reader = pd.read_csv('C:/taobao/22.csv', iterator=True)


loop = True
chunkSize =10000000
chunks = []
while loop:
    try:
        chunk = reader.get_chunk(chunkSize)
        chunks.append(chunk)
    except 
 StopIteration:
        loop = False
        print "Iteration is stopped."
df = pd.concat(chunks, ignore_index=True)
print df
time2=time.time()
print u'總共耗時：' + str(time2 - time1) + 's'

【Pandas】Pandas處理本文資料

目錄連線方法摘要使用文字資料 Series和Index配備了一組字串處理方法，可以輕鬆地對陣列的每個元素進行操作。也許最重要的是，這

【Python數據分析基礎】: 異常值檢測和處理

是否以及結合分析開發者上下理解統計學方法數據分析在機器學習中，異常檢測和處理是一個比較小的分支，或者說，是機器學習的一個副產物，因為在一般的預測問題中，模型通常是對整體樣本數據結構的一種表達方式，這種表達方式通常抓住的是整體樣本一般性的性質，而那些在這

【Python例項第7講】真實資料集的異常檢測

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）在這個例子裡，我們闡述在真實資料集上的穩健協方差估計的必要性。這樣的協方差估計，對異常點檢測，以及更好地理解資料結構都是有益的。為了方便資料視覺化，我們選擇來自波士頓房價資料集的兩個變數

【python爬蟲-爬微博】爬取王思聰所有微博資料

1. 準備：代理IP 。網上有很多免費代理ip，如西刺免費代理IP http://www.xicidaili.com/，自己可找一個可以使用的進行測試；抓包分析。通過抓包獲取微博內容地址。當然web下的api地址可以通過瀏覽器獲得。以下是通過瀏覽器除錯獲得

【解決辦法】pandas畫出時序資料（股票資料）橫軸不是時間

簡述遇到了這個問題，被坑了很久。首先我們要假設我們一直認為index是時間資料。然後我們發現沒有看到橫軸為時間（如果不是的這麼認為的話，就記得先把index設定為時間資料）可能性遇到這個問題有很多種可能。讀取的時候，時間所在的列沒有被設定為inde

【Python學習系列十二】Python庫pandas之CSV匯入

Python Data Analysis Library 或 pandas 是基於NumPy 的一種工具，該工具是為了解決資料分析任務而建立的。Pandas 納入了大量庫和一些標準的資料模型，提供了高效地操作大型資料集所需的工具。pandas提供了大量能使我們快速便捷地處理

【Python五篇慢慢彈】資料結構看python

作者：白寧超 2016年10月9日14:04:47 摘要：繼<快速上手學python>一文之後，筆者又將python官方文件認真學習下。官方給出的pythondoc入門資料包含了基本要點。本文是對文件常用核心要點進行梳理，簡單冗餘知識不再介紹，作者假使你用c/java/c#/c++任一

【Python高階工程師之路】入門+進階+實戰+爬蟲+資料分析整套教程

基礎入門篇課程介紹： Python是一種解釋型的程式語言，所有解釋型語言的特點就是快，同時資料型別轉換靈活，指令碼化開發快速。通常在Linux系統上執行，因為支援多程序，windows不支援多程序。網際網路公司應用較為普遍，而且通常與Mysql資料搭配使用。希望同學

【python密碼學編程】5.反轉加密法

dea log col message 密碼學 cipher style translate class 1 #Reverse Cipher 2 message = ‘there can keep a secret,if two of them are dead.‘ 3

【python中的編碼問題】

網絡文件操作指定 enc 引號 pytho ascii碼磁盤 encode 1、首先要在開頭說明編碼方式為：utf-8 例如：-*- coding: utf-8 -*- 2、如果遇到字符串，立刻轉化為unicode，不要使用str()，直接使用unicode() un

【python+selenium搭建自動化框架】框架設計中的一種設計思想--POM

例如了解思想對象業務 class a 如果對象模型模型 POM，中文：頁面對象模型，POM是近幾年非常流行的自動化測試模型，或者思想，POM不是框架，是解決問題的一種思想。采用POM目的：為了解決前端中UI變化頻繁，從而造成測試自動化腳本維護的成本越來越大 P

python學習筆記-day7-【python操作數據庫】

ngs pass insert commit def err 需要 range 執行上次說到了Python操作數據庫，這裏繼續補充python操作數據庫,如何獲取數據表裏的所有字段值以及將數據導出來到excel裏，作為excel表表頭。一、上次說到封裝一下mysql

【python可視化方案】pyecharts + Django 框架

iss 處理解決 char -a 配置 template 使用 ubun 背景：基於對於可視化的巨大需求以及成本因素，利用pyecharts + Django 的可視化方式，顯然是一種比較優的選擇通過可視化可尋找：模式、關系和異常環境：強迫癥患者，歷來都是用最新版本

【Python爬蟲學習筆記2】urllib庫的基本使用

代理服務 cor proc 技術 origin car windows tpc -c urllib庫是python內置的實現HTTP請求的基本庫，通過它可以模擬瀏覽器的行為，向指定的服務器發送一個請求，並保存服務器返回的數據。 urlopen函數函數原型：urlopen(

【Python爬蟲學習筆記10】多線程中的生產者消費者模式

其中因此問題共享 and 生產者消費者模式共享問題由於接下來在多線程編程中，最經典的模式是生產者消費者模式。其中，生產者是專門用來生產數據的線程，它把數據存放在一個中間變量中；而消費者則從這個中間變量取出數據進行消費。由於生產者和消費者共享中間變量，這些變量大

【python 列表裡的列表】列表的扁平化

目標：列表含有子列表展開成一個列表，列表的扁平化如： [['智利', '葡萄牙', '德國']] 轉換為 ['智利', '葡萄牙', '德國'] # 程式碼實現 k1=[['智利', '葡萄牙', '德國']] k2 = sum(k1, []) print(k2)

【Python爬蟲實戰專案一】爬取大眾點評團購詳情及團購評論

1 專案簡介從大眾點評網收集北京市所有美髮、健身類目的團購詳情以及團購評論,儲存為本地txt檔案。技術：Requests+BeautifulSoup 以美髮為例：http://t.dianping.com/list/beijing?q=美髮爬取內容包括：【團購詳情】團購名稱、原

【Python排序搜尋基本演算法】之拓撲排序

拓撲排序是對有向無環圖的一種排序，滿足如下兩個條件： 1.每個頂點出現且只出現一次； 2.若A在序列中排在B的前面，則在圖中不存在從B到A的路徑。如上的無環有向圖，v表示頂點：v=['a','b','c','d','e']，e表示有向邊：e=[('a

【Python例項第8講】模型複雜度影響

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）本講介紹模型複雜度怎樣影響預測精度和計算效能。我們使用的資料集仍然是波士頓房價資料集。對於模型的每一類，我們通過選擇有關的模型引數，度量計算效能和預測功效的影響，以此考察模型的複雜度。下面，我

【Python例項第9講】物種分佈模型

機器學習訓練營——機器學習愛好者的自由交流空間（qq 群號：696721295）建立物種的地理分佈模型，是保護生物學的一個重要問題。在這個例子裡，我們將根據已有的歷史觀測和14個環境變數，建立兩個南美洲哺乳動物類的地理分佈模型。這兩個物種分別是：褐喉樹懶(B

【python 處理億級資料】使用 Pandas 處理億級資料

相關推薦