Mongodb千萬級資料在python下的綜合壓力測試及應用探討

阿新 • • 發佈：2020-10-14

曾經在收集資料的專案中，用過mongodb的資料儲存，但是當資料很大的時候，還是比較的吃力。很可能當時的應用水平不高，也可以是當時的伺服器不是很強。所以這次能力比以前高點了，然後伺服器比以前也高端了很多，好嘞 ~再測試下。

（更多的是單機測試，沒有用複製分片的測試～）！

相比較MySQL，MongoDB資料庫更適合那些讀作業較重的任務模型。MongoDB能充分利用機器的記憶體資源。如果機器的記憶體資源豐富的話，MongoDB的查詢效率會快很多。

這次測試的伺服器是dell 的 r510！

記憶體還行，是48G的，本來想讓同事給加滿，但是最終還是沒有說出口 ~

磁碟是10個2T的，但是因為格式化的時間太久了，哥們直接把其他的硬碟給拔出來了，就用了三個盤。。。data目錄沒有做raid，是為了讓他們體現更好的硬碟速度。

既然說好了是在python下的應用測試，那就需要安裝mongodb python下的模組！

對了，不知道mongodb-server的安裝要不要說下？

cat/etc/yum.repos.d/10.repo
[10gen]
name=10genRepository
baseurl=http://downloads-distro.mongodb.org/repo/redhat/os/x86_64
gpgcheck=0

Pymongo的基本用法

frompymongoimport*#導包
con=Connection(...)#連結
db=con.database#連結資料庫
db.authenticate('username','password')#登入
db.drop_collection('users')#刪除表
db.logout()#退出
db.collection_names()#檢視所有表
db.users.count()#查詢數量
db.users.find_one({'name':'xiaoming'})#單個物件
db.users.find({'age':18})#所有物件
db.users.find({'id':64},{'age':1,'_id':0})#返回一些欄位預設_id總是返回的0不返回1返回
db.users.find({}).sort({'age':1})#排序
db.users.find({}).skip(2).limit(5)#切片

測試的程式碼：

#!/usr/bin/envpython
frompymongoimportConnection
importtime,datetime
importos,sys
connection=Connection('127.0.0.1',27017)
db=connection['xiaorui']
deffunc_time(func):
def_wrapper(*args,**kwargs):
start=time.time()
func(*args,**kwargs)
printfunc.__name__,'run:',time.time()-start
return_wrapper
@func_time
defainsert(num):
posts=db.userinfo
forxinrange(num):
post={"_id":str(x),
"author":str(x)+"Mike",
"text":"Myfirstblogpost!",
"tags":["xiaorui","xiaorui.cc","rfyiamcool.51cto"],
"date":datetime.datetime.utcnow()}
posts.insert(post)
if__name__=="__main__":
num=sys.argv[1]
ainsert(int(num))

咱們就先來個百萬的資料做做測試~

綜合點的資料：

在top下看到的程式佔用資源的情況 ~ 我們看到的是有兩個程序的很突出，對頭！正是mongodb的服務和我們正在跑的python指令碼！

看下服務的io的情況 ~

指令碼執行完畢，總結下執行的時間 ~

檢視mongodb的狀態~

他的insert也不到5k ~ 插入量也就800k左右 ~

它的輸出有以下幾列：

inserts/s 每秒插入次數

query/s 每秒查詢次數

update/s 每秒更新次數

delete/s 每秒刪除次數

getmore/s 每秒執行getmore次數

command/s 每秒的命令數，比以上插入、查詢、更新、刪除的綜合還多，還統計了別的命令

flushs/s 每秒執行fsync將資料寫入硬碟的次數。

mapped/s 所有的被mmap的資料量，單位是MB，

vsize 虛擬記憶體使用量，單位MB

res 實體記憶體使用量，單位MB

faults/s 每秒訪問失敗數（只有Linux有），資料被交換出實體記憶體，放到swap。不要超過100，否則就是機器記憶體太小，造成頻繁swap寫入。此時要升級記憶體或者擴充套件

locked % 被鎖的時間百分比，儘量控制在50%以下吧

idx miss % 索引不命中所佔百分比。如果太高的話就要考慮索引是不是少了

q t|r|w 當Mongodb接收到太多的命令而資料庫被鎖住無法執行完成，它會將命令加入佇列。這一欄顯示了總共、讀、寫3個佇列的長度，都為0的話表示mongo毫無壓力。高併發時，一般佇列值會升高。

conn 當前連線數

time 時間戳

瞅下面的監控資料！

然後我們在測試下在一千萬的資料下的消耗時間情況 ~

共用了2294秒，每秒插入 4359個數據 ~

看看他的記憶體的使用情況：

虛擬記憶體在8gb左右，真實記憶體在2gb左右

再換成多執行緒的模式跑跑 ~ 個人不太喜歡用多執行緒，這東西屬於管你忙不忙，老大說了要公平，我就算搶到了，但是沒事幹，我也不讓給你。。。屬於那種蠻幹的機制 ~

nima，要比單個跑的慢呀 ~ 執行緒這東西咋會這麼不靠譜呀 ~

應該是沒有做執行緒池pool，拉取佇列。導致執行緒過多導致的。不然不可能比單程序都要慢~

還有就是像這些涉及到IO的東西，交給協程的事件框架更加合理點！！！

defgoodinsert(a):
posts.insert(a)
defainsert(num):
forxinrange(num):
post={"_id":str(x),
"author":str(x)+"Mike",
"text":"Myfirstblogpost!",
"tags":["mongodb","python","pymongo"],
"date":datetime.datetime.utcnow()}
#goodinsert(post)
a=threading.Thread(target=goodinsert,args=(post,))
a.start()

python畢竟有gil的限制，雖然multiprocess號稱可以解決多程序的。但是用過的朋友知道，這個東西更不靠譜 ~ 屬於坑人的東西 ~

要是有朋友懷疑是python的單程序的效能問題，那咱們就用supervisord跑了幾個後臺的python壓力指令碼 ~ supervisord的配置我就不說了，我以前的文章裡面有詳述的 ~

cpu方面是跑的有點均勻了，但是mongodb那邊的壓力總是上不去

當加大到16個後臺程序做壓力測試的時候 ~ 大家會發現insert很不穩定。看來他的極限也就是2MB左右的資料 ~

當減少到8個壓力程序的時候 ~ 我們發現他的insert慢慢的提供到正常了，也就是說他真的是2MB的極限 ~

腳本里面是有做有序的id插入的，我們試試把id的插入給去掉，看看有沒有提升~

結果和不插入id差不多的結果 ~

調優之後～再度測試

ulimit的優化

cat/etc/security/limits.conf
*softnofile102400
*hardnofile102400

核心的tcp優化

cat/etc/sysctl.conf
net.ipv4.tcp_syncookies=1
net.ipv4.tcp_tw_reuse=1
net.ipv4.tcp_tw_recycle=1
net.ipv4.tcp_timestsmps=0
net.ipv4.tcp_synack_retries=2
net.ipv4.tcp_syn_retries=2
net.ipv4.tcp_wmem=8192436600873200
net.ipv4.tcp_rmem=32768436600873200
net.ipv4.tcp_mem=945000009150000092700000
net.ipv4.tcp_max_orphans=3276800
net.ipv4.tcp_fin_timeout=30
#直接生效
/sbin/sysctl-p

啟動的時候，加上多核的優化引數

多核問題可以在啟動時加入啟動引數：numactl--interleave=all

insert的頻率已經到了2w左右～記憶體佔用了8G左右～

我想到的一個方案：

當然不用非要celery，就算咱們用socket寫分發，和zeromq的pub sub也可以實現這些的。這是celery的排程更加專業點。

剛才我們測試的都是insert，現在我們再來測試下在千萬級別資料量下的查詢如何：

查詢正則的，以2開頭的字元

posts=db.userinfo
foriinposts.find({"author":re.compile('^2.Mike')}):
printi

精確的查詢：

查詢在5s左右 ~

總結：

典型的高讀低寫資料庫！

轉載於:https://blog.51cto.com/rfyiamcool/1329351

Mongodb千萬級資料在python下的綜合壓力測試及應用探討

曾經在收集資料的專案中，用過mongodb的資料儲存，但是當資料很大的時候，還是比較的吃力。很可能當時的應用水平不高，也可以是當時的伺服器不是很強。所以這次能力比以前高點了，然後伺服器比以前也高端

mysql千萬級資料分頁查詢效能優化

mysql資料量大時使用limit分頁，隨著頁碼的增大，查詢效率越低下。實驗 1.直接使用用limit start,count分頁語句：

Oracle千萬級資料分頁查詢優化

Oracle千萬級資料分頁查詢優化 1. 未優化之前： SELECT TMP.* FROM (SELECT ROWNUM AS \"ROWNO\",${tableId},${columnName}

MySQL迴圈插入千萬級資料

1、建立測試表 CREATE TABLE `mysql_genarate` ( `id` int(11) NOT NULL AUTO_INCREMENT,`uuid` varchar(50) DEFAULT NULL,PRIMARY KEY (`id`)

資料視覺化第11篇：生成千萬級資料之PowerDesigner連線mysql

第一步：開啟PD軟體；第二步：建立新的Model 第三步：建立PDM檢視（選擇自己要連線的資料庫）

MySQL批量千萬級資料SQL插入效能優化<細讀>

對於一些資料量較大的系統，資料庫面臨的問題除了查詢效率低下，還有就是資料入庫時間長。特別像報表系統，可能每天花費在資料匯入上的時間就會長達幾個小時之久。因此，優化資料庫插入效能是很有意義的。

用Laravel輕鬆處理千萬級資料的方法實現

在Laravel中使用cursor來查詢並處理資料 (輕鬆處理千萬級的資料) 事發現場最近在專案中遇到記憶體不足的問題,測試環境中的PHP記憶體只有64M,在匯出的時候,資料量比較大,這個時候會出現記憶體溢位的錯誤;

.Net Core匯入千萬級資料至Mysql資料庫的實現方法

最近在工作中，涉及到一個數據遷移功能，從一個txt文字檔案匯入到mysql功能。

.Net EF Core千萬級資料實踐

.Net 開發中操作資料庫EF一直是我的首選，工作和學習也一直在使用。EF一定程度的提高了開發速度，開發人員專注業務，不用編寫sql。方便的同時也產生了一直被人詬病的一個問題效能低下。

MySQL千萬級資料優化

當MySQL單表記錄數過大時，增刪改查效能都會急劇下降，可以參考以下步驟來優化：

MySQL-2-如何製造百萬千萬級+資料

1、十分鐘單表造：10w，沒想到我的機器太差勁了，重點還是單表~ 意外，今天想看看SQL儲存過程是什麼東西，如何製造百萬千萬級+資料，有它應該也可以的。

第十二章 Net 5.0 快速開發框架 YC.Boilerplate --千萬級資料處理解決方案

第十二章 Net 5.0 快速開發框架 YC.Boilerplate --千萬級資料處理解決方案線上文件：http://doc.yc-l.com/#/README

千萬級併發架構下，關係型資料庫應該如何優化？大廠是如何做分庫分表的！

隨著網際網路的高速發展，帶來了海量資料儲存的問題，比如像物聯網行業，每個智慧終端每天進行資料採集和上報，每天能夠產幾千萬甚至上億的資料。在網際網路電商行業，或者一些O2O平臺，每天也能產生上千萬的訂單資

MyBatis 如何實現流式查詢千萬級資料

如何實現快速查詢千萬級資料，流查詢原文作者：捏造的信仰原文連結：MyBatis 如何實現流式查詢

支付對賬系統序章：千萬級資料對賬怎麼這麼難？

支付對賬很早之前寫過一篇支付對賬相關文章，那時候負責對賬系統日均處理數量比較小。

python+requests介面壓力測試500次,檢視響應時間的例項

介面壓力測試500次，檢視響應時間 import json import requests import logging logging.basicConfig(level=logging.INFO,format=\'%(asctime)s - %(name)s - %(levelname)s - %(message)s\')

linux 下ab壓力測試

1.ab的簡介 ab是apachebench命令的縮寫。 ab是apache自帶的壓力測試工具。ab非常實用，它不僅可以對apache伺服器進行網站訪問壓力測試，也可以對或其它型別的伺服器進行壓力測試。比如nginx、tomcat、IIS等

Python裝飾器實現方法及應用場景詳解

應用場景： 1、授權(Authorization) 裝飾器能有助於檢查某個人是否被授權去使用一個web應用的端點(endpoint)。它們被大量使用於Flask和Django web框架中。這裡是一個例子來使用基於裝飾器的授權：

Python logging模組原理解析及應用

一、logging日誌模組等級常見log級別從高到低： CRITICAL 》ERROR 》WARNING 》INFO 》DEBUG，預設等級為WARNING，即>=WARNING級別的log才輸出。

Python偏函式實現原理及應用

摘要：python的設計核心原則就是簡潔——在這種原則的指導下，誕生了lambda表示式和偏函式：二者都讓函式呼叫變得簡潔。本文主要為你介紹偏函式的應用。

Mongodb千萬級資料在python下的綜合壓力測試及應用探討

相關推薦