solr 億萬級資料查詢效能測試
廢話不多說,我電腦配置 i7四核cpu 8G記憶體
插入資料文件中有5個欄位,其中有兩個分詞,一個int,一個date
批量插入測試一次10萬迴圈10次總共100萬用時85秒
批量插入測試一次10萬迴圈100次總共1000萬用時865秒
插入效能還是不錯的
查詢測試
在12166454資料中(約等於一千兩百萬)總共佔用硬碟2.8G 查詢分詞欄位 title:中國用時0.031秒 非分詞欄位查詢 view_count:1 用時 0.030秒 範圍查詢 view_count:[0 TO 1000] 用時0.125秒 上面這些查詢第二次查詢的時候用時都在0.001秒之下應該是因為有快取的原因 相對資料庫的模糊查詢優勢及其明顯,我用mysql兩千萬資料查詢“%中國%”直接資料庫卡掉了 (不過這麼比較美意思,全文檢索儲存方式跟sql不一樣,各有優劣)
在過億的資料量中
插入一億資料耗時1小時40分鐘35秒
插入過程中 記憶體佔用70%左右 cpu沒多少變化 11%左右(上班寫的,未完待續)
相關推薦
solr 億萬級資料查詢效能測試
廢話不多說,我電腦配置 i7四核cpu 8G記憶體 插入資料文件中有5個欄位,其中有兩個分詞,一個int,一個date 批量插入測試一次10萬迴圈10次總共100萬用時85秒 批量插入測試一次10萬迴圈100次總共1000萬用時865秒 插入效能還是不錯的查詢測試 在
solr億萬級索引優化實踐-自動生成UUID
parse zkclient direct use 參與 客戶 lrj 網速 ret solr億萬級索引優化實踐(三) 原創 2017年03月14日 17:03:09 本篇文章主要介紹下如何從客戶端solrJ以及服務端參數配置的角度來提升索引速度。
Python霧裡看花-list與set十萬資料查詢效能對比
# -*- coding: utf-8 -*- import random import time num = 100000 listA = [random.randint(1, i) for i in range(1, num)] setB = set() while len(set
大資料平臺效能測試(phrase1)
前一個月,一直在和師兄做實驗室的一個專案,沒有時間更新。現把第一階段結果附上,希望能夠幫到更多做類似事情的朋友。 本次測試我們使用TPCDS標準進行。第一階段我們主要測試hive&kudu匯入資料速度以及impala+hive和impala+kudu
SQL Server資料庫優化:如何設計索引才能提高資料查詢效能?
當你發現隨著系統升級,版本迭代,使用者不斷增加,你的系統逐漸變慢的時候,就要考慮一下是不是需要對資料庫進行優化了(當然,效能瓶頸不一定在資料庫上),通常來說,優化資料庫的手段,我們最先想到的就是索引。 索引的目的是為了讓查詢更快。 為了保證你建立的索
oracle千萬級資料查詢優化
需求:組合查詢,按條件統計某幾個欄位取前100條記錄 問題:沒建索引導致查詢結果耗時5秒多,不能忍受。 解決方法: 建索引,在哪個欄位建? 在這裡先提下Oracle的sql語句的執行。oracle在執行sql語句之前會用優化器Optimizer對sql語句進行
PostgreSQL 資料寫入效能測試
1主2從SR同步流複製測 搭建環境略,可參考之前文章 Server | Role 10.10.56.16 | master 10.10.56.17 | slave1 10.10.56.19 | slave2 16查詢狀態 pocdb=#
MongoDB與MySQL的插入、查詢效能測試
1. 背景介紹 1.1 MongoDB的簡單介紹 在當今的資料庫市場上,MySQL無疑是佔有一席之地的。作為一個開源的關係型資料庫,MySQL被大量應用在各大網站後臺中,承擔著資訊儲存的重要作用。2009年,甲骨文公司(Oracle)收購Sun公司,MySQL成為Orac
【MongoDb】一次關於Oracle和MongoDb的插入和查詢效能測試
本次實驗是在筆者上學期期末一次課程實習中的一部分,現在整理出來以供參考。 本次資料用的是不同數量級別上的資料分別在Oracle和MongoDb中進行實驗的。 其中兩者的表結構一樣,都是如下欄位:
Linux下和MySQL下利用python插入億萬級資料
##下載mysqldb 首先必須下載mysqldb,下載語句是 yum install MySQL-python 安裝之後,在命令列輸入 #>>>python #接下來是python
如何解決百萬級資料查詢優化
一、SQL優化——使用索引查詢 造成全表查詢的(索引失效的情況):避免null值查詢。索引列的資料不要大量重複。where語句中or(union替代)、in not in(between and)
使用ElasticSearch完成百萬級資料查詢附近的人功能
上一篇文章介紹了ElasticSearch使用Repository和ElasticSearchTemplate完成構建複雜查詢條件,簡單介紹了ElasticSearch使用地理位置的功能。這一篇我們來看一下使用ElasticSearch完成大資料量查詢附近的人功能,搜尋N米範
Hive查詢效能測試記錄
一、測試環境 HDFS 七個節點,五個dn,兩個nn。Hive配置在其中一個nn,使用MySQL遠端元資料庫,同一個節點同時開啟hiveserver2和metastore。所有節點記憶體一致,30GB,CPU為Intel(R) Xeon(R) CPU E5-2620 v3
Mongodb的億萬級資料集合中提取欄位的所有不同值集合
對於網際網路公司來說,隨著業務的不斷髮展,後臺儲存的各種資料也會越來越多,在這篇文章中,簡單講述一下自己在工作過程中遇到的一個小的統計需求工作,希望對有需要的人有所幫助。 需求:需要統計我們後臺資料庫
如何優化Mysql千萬級快速分頁,limit優化快速分頁,MySQL處理千萬級資料查詢的優化方案!(zz)
MySQL資料庫優化處理實現千萬級快速分頁分析,來看下吧。 資料表 collect ( id, title ,info ,vtype) 就這4個欄位,其中 title 用定長,info 用text, id 是逐漸,vtype是tinyint,vtype是索引。這是一個基本的新聞系統的簡單模型。現在往裡面填
solr億萬級索引優化實踐(四)
本篇是這個系類的最後一篇,但優化方案不僅於此,需要後續的研究與學習,本篇主要從schema設計的角度來做一些實踐。 schema.xml 這個檔案的作用是定義索引資料中的
【乾貨】Kafka實現淘寶億萬級資料統計(下)
開發十年,就只剩下這套架構體系了! >>>
Mysql面試題及千萬級資料查詢優化
今天在說Mysql查詢優化之前,我先說一個常見的面試題,並帶著問題深入探討研究。這樣會讓大家有更深入的理解。 一,Mysql資料庫中一個表裡有一千多萬條資料,怎麼快速的查出第900萬條後的100條資料? 怎麼查,誰能告訴我答案?有沒有人想著,不就一條語句搞定嘛 select * from table limi
從千萬級資料查詢來聊一聊索引結構和資料庫原理
在日常工作中我們不可避免地會遇到慢SQL問題,比如筆者在之前的公司時會定期收到DBA彪哥發來的Oracle AWR報告,並特別提示我某條sql近階段執行明顯很慢,可能要優化一下等。對於這樣的問題通常大家的第一反應就是看看sql是不是寫的不合理啊諸如:*“避免使用in和not in,否則可能會導致全表掃描”“
大廠運維必備技能:PB級資料倉庫效能調優
摘要:眾所周知,資料量大了之後,效能是大家關注的一點,所以我們在業務開發的時候,特別關注效能,做為一個架構師,必須對效能要了解,要懂。才能設計出高效能的業務系統。 一、GaussDB分散式架構 所謂叢集是將多臺物理伺服器組建成一個邏輯平臺,對外展現一個叢集平臺的形式。 所謂分散式架構是將資料分而治之。以