python大規模資料處理技巧之一：資料常用操作

阿新 • • 發佈：2019-01-01

面對讀取上G的資料，python不能像做簡單程式碼驗證那樣隨意，必須考慮到相應的程式碼的實現形式將對效率的影響。如下所示，對pandas物件的行計數實現方式不同，執行的效率差別非常大。雖然時間看起來都微不足道，但一旦執行次數達到百萬級別時，其執行時間就根本不可能忽略不計了：

故接下來的幾個文章將會整理下渣渣在關於在大規模資料實踐上遇到的一些問題，文章中總結的技巧基本是基於pandas，有錯誤之處望指正。

1、外部csv檔案讀寫

大資料量csv讀入到記憶體

分析思路：資料量非常大時，比如一份銀行一個月的流水賬單，可能有高達幾千萬的record。對於一般效能的計算機，有或者是讀入到特殊的資料結構中，記憶體的儲存可能就非常吃力了。考慮到我們使用資料的實際情況，並不需要將所有的資料提取出記憶體。當然讀入資料庫是件比較明智的做法。若不用資料庫呢？可將大檔案拆分成小塊按塊讀入後，這樣可減少記憶體的儲存與計算資源

注意事項：open(file.csv)與pandas包的pd.read_csv(file.csv )： python32位的話會限制記憶體，提示太大的資料導致記憶體錯誤。解決方法是裝python64位。如果嫌python各種包安裝過程麻煩，可以直接安裝Anaconda2 64位版本

簡易使用方法：

    chunker = pd.read_csv(PATH_LOAD, chunksize = CHUNK_SIZE)

讀取需要的列：

    columns = ("date_time",  "user_id")
    chunks_train = pd.read 
_csv(filename, usecols = columns, chunksize = 100000)

chunker物件指向了多個分塊物件，但並沒有將實際資料先讀入，而是在提取資料時才將資料提取進來。資料的處理和清洗經常使用分塊的方式處理，這能大大降低記憶體的使用量，但相比會更耗時一些

分塊讀取chunk中的每一行：

    for rawPiece in chunker_rawData:
        current_chunk_size = len(rawPiece.index)   #rawPiece 是dataframe
        for i in range(current_chunk_size ):
            timeFlag = timeShape(rawPiece.ix[i])   #獲取第i行的資料

將資料存到硬碟

直接寫出到磁碟：

    data.to_csv(path_save, index = False, mode = 'w')`

分塊寫出到磁碟：

對於第一個分塊使用pandas包的儲存IO：

保留header資訊，‘w’模式寫入

data.to_csv(path_save, index = False, mode = 'w')

接下的分塊寫入

去除header資訊，‘a’模式寫入，即不刪除原文件，接著原文件後繼續寫

data.to_csv(path_save, index = False, header = False, mode = a')

少量的資料寫出：

少量的資料用pickle（cPickle更快）輸出和讀取，非常方便，下面分別是寫出和讀入

寫出：

    import cPickle as pickle
    def save_trainingSet(fileLoc, X, y):
        pack = [X, y]
        with open(fileLoc, 'w') as f:
            pickle.dump(pack, f)

讀入：

    import cPickle as pickle
    def read_trainingSet(fileLoc):
        with open(fileLoc, 'r') as f:
            pack = pickle.load(f)
        return pack[0], pack[1]

高效讀取外部csv到python內部的list資料結構

效率低下的方法：使用pd讀入需要從pd轉換到python本身的資料結構，多此一舉

    userList = []
    content = pd.read_csv(filename)
    for i in range(len(content)):
        line = content.ix[i]['id']
        userList.append(line)

效率高的方法：直接將外部資料讀入進來

    userList = []
    f = open(filename)
    content = f.readlines()
    for line in content:
        line = line.replace('\n', '').split(',')
        userList.append(line)

2、資料分析時常用資料結構之間的轉化

資料集的橫向與縱向合併

簡單地橫向合併資料集：

問題分析：

縱向的合併使用list並不好，因為需要去拆解list的每一個行元素，並用extend去拓展每一行的縱向元素

最好使用dataframe中的concat函式：c = pd.concat([a, b], axis = 1)，當axis=0時表示合併行（以行為軸）

    inx1 = DataFrame(np.random.randn(nSample_neg), columns = ['randVal'])
    inx2 = DataFrame(range(nSample_neg), columns = ['inxVal'])
    inx = pd.concat([inx1, inx2], axis = 1)

類似資料庫的表合併：join（待完整）

    ret = ret.join(dest_small, on="srch_destination_id", how='left', rsuffix="dest")

簡單縱向合併資料集：

縱向合併資料集可以考慮一下幾種方法：

讀取資料為list格式，使用append函式逐行讀取

將資料集轉換為pandas中的dataframe格式，使用dataframe的merge與concat方法

方法：

方法一：使用dataframe讀入，使用concat把每行並起來

方法二：先使用list讀入並起來，最後轉換成dataframe

方法三：先使用list讀入並起來大塊的list，每塊list轉換成dataframe後用concat合併起來

比較：方法一由於concat的靜態性，每次要重新分配資源，故跑起來很慢；方法二與三：會快很多，但具體沒有測試，以下是使用方法三的程式碼：

    data = []
    cleanedPiece = []
    for i in range(CHUNK_SIZE):
        line = rawPiece.ix[i]
        uid = [line['user_id'], line['item_id'],
            line['behavior_type'], timeFlag]
        cleanedPiece.append(uid)
    cleanedPiece = DataFrame(cleanedPiece, columns = columns)
    data = pd.concat([data, cleanedPiece], axis = 0)

<未完待續>

python大規模資料處理技巧之一：資料常用操作

面對讀取上G的資料，python不能像做簡單程式碼驗證那樣隨意，必須考慮到相應的程式碼的實現形式將對效率的影響。如下所示，對pandas物件的行計數實現方式不同，執行的效率差別非常大。雖然時間看起來都微不足道，但一旦執行次數達到百萬級別時，其執行時間就根本不可能

用 Python 做資料處理必看：12 個使效率倍增的 Pandas 技巧（上下）

http://datartisan.com/article/detail/81.html 導語 Python正迅速成為資料科學家偏愛的語言，這合情合理。它擁有作為一種程式語言廣闊的生態環境以及眾多優秀的科學計算庫。如果你剛開始學習Python，可以先了解一下Python的學習路線。在眾多的科學計算庫中

用 Python 做資料處理必看：12 個使效率倍增的 Pandas 技巧（上）

導語 Python正迅速成為資料科學家偏愛的語言，這合情合理。它擁有作為一種程式語言廣闊的生態環境以及眾多優秀的科學計算庫。如果你剛開始學習Python，可以先了解一下Python的學習路線。在眾多的科學計算庫中，我認為Pandas對資料科學運算最有用。Pandas，

用 Python 做資料處理必看：12 個使效率倍增的 Pandas 技巧（下）

7 – 資料框合併當我們有收集自不同來源的資料時，合併資料框就變得至關重要。假設對於不同的房產型別，我們有不同的房屋均價資料。讓我們定義這樣一個數據框： prop_rates = pd.DataFrame([1000, 5000, 12000], index

《資料演算法：Hadoop_Spark大資料處理技巧》艾提拉筆記.docx 第1章二次排序：簡介 19 第2章二次排序：詳細示例 42 第3章 Top 10 列表 54 第4章左外連線 96 第5

《資料演算法：Hadoop_Spark大資料處理技巧》艾提拉筆記.docx 第1章二次排序：簡介 19 第2章二次排序：詳細示例 42 第3章 Top 10 列表 54 第4章左外連線 96 第5章反轉排序 127 第6章

python資料處理技巧一

字串賦值(傳參)技巧 Python中一般的字串賦值的方式如下： 1 variable = "Test" 2 print "I just [%s] unit"%variable 3 print "I just [{}] unit".format(variable) 如上所示最基本的兩種寫法，但是還有很

python資料處理技巧二

1 #!/usr/bin/env python 2 #-*- coding:utf-8 -*- 3 4 import time 5 6 date = "2018-08-08" 7 8 # 轉換輸入的時間為格式化的元祖 9 time_tuple = time.strptime(date

《特徵工程三部曲》之一：資料處理

要理解特徵工程，首先要理解資料（Data）和特徵（Feature）的概念概念特徵工程（Feature Engineering）其本質上是一項工程活動，它目的是最大限度地從原始資料中提取特徵以供演算法和模型使用。特徵工程在資料探勘中有

量化分析師的Python日記【第6天：資料處理的瑞士軍刀pandas下篇

原始資料的中很可能存在一些資料的缺失，就如同現在處理的這個樣例資料一樣，處理缺失資料有多種方式。通常使用dataframe.dropna()，dataframe.dropna()可以按行丟棄帶有nan的資料；若指定how='all'（預設是'any'），則只在整行全部是nan時丟棄資料；若指定thresh，則

Python 資料處理擴充套件包： pandas 模組的DataFrame介紹（建立和基本操作）

DataFrame是Pandas中的一個表結構的資料結構，包括三部分資訊，表頭（列的名稱），表的內容（二維矩陣），索引（每行一個唯一的標記）。一、DataFrame的建立有多種方式可以建立DataFrame，下面舉例介紹。例1：通過list建立 >

Python極簡教程之七：資料格式化（format）

自 python 2.6 開始，新增了一種格式化字串的函式str.format()，可謂威力十足。那麼，他跟之前的%型格式化字串相比，有什麼優越的存在呢？讓我們來揭開它羞答答的面紗。 #語法它通過{}和:來代替%。位置 '{0},{1}'.format('kzc',18) # k

Python爬蟲開發（三）：資料儲存以及多執行緒

0×00 介紹本文我們就兩個方面來討論如何改進我們的爬蟲：資料儲存和多執行緒，當然我承認這是為我們以後要討論的一些東西做鋪墊。本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論

《利用Python進行資料分析》——Chapter9：資料聚合和分組

對資料集進行分組並對各組應用一個函式，這是資料分析的一個重要環節，將資料集準備好後，接下來的任務就是計算分組統計或深成透視表 GroupBy技術(分組) 建立一個GroupBy物件，再呼叫GroupBy的各種方法計算相關資料 df = pd.DataFrame(

資料探勘1：資料型別質量預處理相似性和相異性度量

資料探勘到底是幹啥的? 比較官方的定義就是，在大型資料儲存庫中，自動地發現有用資訊的過程。其實就像我之前所說的，從大量的資料中，發現那個我們想要尋找到的模式。資料探勘的一般過程包括以下這幾個方面： 1、資料預處理 2、資料探勘 3、後處理首先來說說資料預處理。之所以

大資料處理演算法三：分而治之/hash對映 + hash統計 + 堆/快速/歸併排序

百度面試題1、海量日誌資料，提取出某日訪問百度次數最多的那個IP。 IP 是32位的，最多有個2^32個IP。同樣可以採用對映的方法，比如模1000，把整個大檔案對映為1000個小檔案，再找出每個小文中出現頻率最大的 IP（可以採用hash_map進行頻率統計，然後再找出頻

用Python開始機器學習（3：資料擬合與廣義線性迴歸）

機器學習中的預測問題通常分為2類：迴歸與分類。簡單的說迴歸就是預測數值，而分類是給資料打上標籤歸類。本文講述如何用Python進行基本的資料擬合，以及如何對擬合結果的誤差進行分析。本例中使用一個2次函式加上隨機的擾動來生成500個點，然後嘗試用1、2、100次方的多項式對該資

《資料演算法-Hadoop/Spark大資料處理技巧》讀書筆記（一）——二次排序

寫在前面：在做直播的時候有同學問Spark不是用Scala語言作為開發語言麼，的確是的，從網上查資料的話也會看到大把大把的用Scala編寫的Spark程式，但是仔細看就會發現這些用Scala寫的文章

《資料演算法-Hadoop/Spark大資料處理技巧》讀書筆記（四）——移動平均

移動平均：對時序序列按週期取其值的平均值，這種運算被稱為移動平均。典型例子是求股票的n天內的平均值。移動平均的關鍵是如何求這個平均值，可以使用Queue來實現。 public class MovingAverageDriver { public

玩轉大資料系列之一：資料採集與同步

資料的採集和同步，是先將資料從裝置、或者本地資料來源採集、同步到阿里雲上，然後在阿里雲上對資料進行分析和處理，最終完成您的業務要求。本文向您介紹阿里雲各產品的資料採集和同步的操作實戰文章，您可以根據您使用阿里雲產品，檢視相應的文件教程。關於資料採集，DataWorks專門有一個模組叫做資料整合，是阿里巴巴

玩轉大資料系列之二：資料分析與處理

經過了資料採集和同步之後，就可以在阿里雲上進行資料分析和處理，來玩轉您的資料了。本文向您介紹在阿里雲大資料各產品中，以及各產品之間怎樣來完成您的資料處理和資料分析。 MaxCompute 基於MaxCompute的大資料計算（MaxCompute + RDS）使用MaxCompute分析IP

python大規模資料處理技巧之一：資料常用操作

1、外部csv檔案讀寫

大資料量csv讀入到記憶體

將資料存到硬碟

高效讀取外部csv到python內部的list資料結構

2、資料分析時常用資料結構之間的轉化

資料集的橫向與縱向合併

相關推薦