[python] mongodb 儲存優化 --- 文件設計

阿新 • • 發佈：2019-01-14

結論：面對大量不需要作為中間值計算，僅是作為記錄存下來的資訊建議使用string字串儲存，而不直接使用字典，列表等結構直接存入資料庫。

mongodb的文件具有很好的拓展性，給我們儲存帶來了便利，但是當資料量到達一定範圍後，比如我在使用中，達到1000W條記錄，或者儲存大小超過5G之後，就不得不考慮一下優化問題。做了一個簡單的測試，程式碼如下。

測試物件：用string儲存與用字典dict儲存對比

測試方法：模擬5w個欄位，第一種方法拼接為一個大的string串儲存資料，比如&1718-0-0-0&1882-1-1-1，另一種用字典儲存{1718: [0, 0, 0], 1882: [1, 1, 1]} 然後利用迴圈插入5000條重複記錄。測試查詢的時候，遍歷每一條記錄。

測試環境：win8.1 4G記憶體東芝SSD128G（如果程式碼執行結果差異可能是固態硬碟和機械硬碟的差異）查詢工具：MongoVUE mongodb 2.6.3

測試程式碼：

<span style="font-size:18px;">__author__ = 'CRay'

import pymongo
import random

def test():
    db = conn.test
    str_a = ''
    for i in range(0, 49999):
        str_a += '&' + str(i) + '-1-0-0'
    for i in range(0, 4999):
        db.insert({'a': str_a, 'num': i})
    db.create_index('num')


def test_list():
    db = conn.test1
    list_a = {}
    for i in range(0, 49999):
        list_a[str(i)] = [1, 0, 0]
    for i in range(0, 4999):
        db.insert({'a': list_a, 'num': i})
    db.create_index('num')


def update():
    db = conn.test1
    list_num = []
    for i in range(0, 99):
        num = random.randrange(1, 29999)
        list_num.append(num)
    logs = db.find()
    count = 0
    for log in logs:
        try:
            if log['num'] in list_num:
                print log['num'],
                count += 1
        except Exception as e:
            print e
    print count

if __name__ == '__main__':
    client = pymongo.Connection()
    conn = client.test
    import profile
    profile.run("update()")</span>

==============================分割線==================================

結果：可見效率非常明顯。 string對應test， dict對應test1

原因分析：

猜測在儲存list或者ditc結構時，雖然mongodb直接使用BSON格式，但是依舊需要保留資料資訊，比如鍵值對資訊等，這佔據了空間，也導致查詢變慢。這需要檢視mongodb的文件，具體下一篇再講。

===========================結果截圖=========================

整個過程還有很多細節有待考究，其中錯誤希望指出！

完

[python] mongodb 儲存優化 --- 文件設計

[python] mongodb 儲存優化 --- 文件設計

python--學習筆記7 文件格式、數據讀取、儲存

python將一個txt文件的內容轉為字典格式/將字典格式儲存到txt文件中

python 讀寫txt文件並用jieba庫進行中文分詞

Python 之讀取txt文件

python之import子目錄文件

python實現修改配置文件

Python基礎：Python函數、文件操作、遞歸

Python Day2 基礎操作文件流

Python（day5）文件操作

python json及mysql——讀取json文件存sql、數據庫日期類型轉換、終端操縱mysql及python codecs讀取大文件問題

os.path python使用遍歷文件夾文件

python open打開文件的方式

python之創建文件寫入內容

python + selenium -- 讀取配置文件內容

【轉】python qt(pyqt)的文件打開、文件保存、文件夾選擇對話框

Python將一個大文件按段落分隔為多個小文件的簡單方法

python SimpleHTTPServer 快速共享文件

Python學習筆記之文件和流

Python 第十三節文件操作

[python] mongodb 儲存優化 --- 文件設計

相關推薦