大資料量查詢優化

阿新 • • 發佈：2019-02-07

問題描述：涉及到大資料量，多迴圈查詢的時候，往往查詢的速度會變慢，影響系統的使用效能。該問題，在測試環境尚不明顯，因為測試環境的資料量畢竟是有限的。

但是，一旦將程式碼更新到線上的真實系統，因為資料量一下子增大，會造成資料查詢的緩慢，所造成的嚴重遲滯，就不能被忽略了。

業務場景：雲端計算系統。底層會將採集過來的宿主機流量資料，進行儲存。後臺管理系統，需要定時計算從底層傳遞過來的宿主機的頻寬的總體實際使用量，並且用實際使用量，除以節點的總頻寬，得到相關的出網、入網的頻寬使用率。

方案分析：
1.在儲存資料的時候，事實計算出資料使用量，後續查詢時，通過sql語句的sum方法直接彙總。
2.開啟多執行緒併發查詢。

一、利用Callable多執行緒，實現查詢優化的例子

原理同一個Callable的簡單例子。核心在於運用多執行緒，建立帶有返回值的查詢。

1.準備查詢引數

2.根據每頁資料量，去判斷應該建立的執行緒的數量。

3.根據資料的總數量，平均分配每個執行緒處理的數量。

4.將查詢返回的Future，儲存在list中（注意，這樣做可以提升查詢速度，先批量儲存結果，再處理的方式，要快於拿到值就處理的方式）

5. latch.await();

6.遍歷List，資料處理+分頁，返回資料值。

public String services(){
		List <Future<Map<String,Object>>> list=new ArrayList<Future<Map<String,Object>>>();
		int total=0;
		//1.準備需要傳遞的引數
		String condition = dealContent();
		List<CompanyEntity> companyList = companyService.list(condition, -1, -1);
		List<Node> nodeList = new ArrayList<Node>();
		int nodeId = getNodeId();
			if(nodeId != 0){
				Node node = nodeService.getById(nodeId);
				nodeList.add(node);
			}else{
				nodeList = nodeService.getAll();
			}
		List<JSONObject> comList = new ArrayList<JSONObject>();
			for(CompanyEntity company : companyList){
				for(Node node : nodeList){
					JSONObject jsonObj = new JSONObject();
					jsonObj.put("companyName", company.getCompanyName());
					jsonObj.put("companyId", company.getCompanyId());
					jsonObj.put("companyType", company.getType());
					jsonObj.put("nodeName",node.getNode_name());
					jsonObj.put("nodeId",node.getNode_id());
					jsonObj.put("nodeIp", node.getNode_ip());
					comList.add(jsonObj);
				}
			}
		//2.資料分頁處理
		int pagesize=Integer.parseInt(super.getPagesize());
		int nopage=Integer.parseInt(super.getNowpage());
		int ThrearNum=0;
		if(pagesize>ThreadUtil.CORE_POOL_SIZE){
			ThrearNum=ThreadUtil.CORE_POOL_SIZE;
		}else{
			ThrearNum=pagesize;
		}
		try {
			//計算資料總量：
			int sumDataCount=comList.size();
			List<JSONObject> dataList=new ArrayList<JSONObject>();
			
			final CountDownLatch latch = new CountDownLatch(ThrearNum);
			boolean flag=false;
			int dataEnd=0;
			int addData=0;
			int j=1;
			for (int i = 0; i < ThrearNum; i++) {
				List<JSONObject> addList=new ArrayList<JSONObject>();
				List<JSONObject> tempList=new ArrayList<JSONObject>(comList.size());
				tempList=comList;
				List<JSONObject> dealList=new ArrayList<JSONObject>();
				
				if(sumDataCount%ThrearNum!=0){
					addData=sumDataCount%ThrearNum;
					flag=true;
				}
				//計算每個執行緒要處理的資料總量：
				int dataCountPerThread=sumDataCount/ThrearNum;
				//計算當前執行緒資料處理的起始索引：
				int dataStart=i*dataCountPerThread;
				//計算當前執行緒資料處理的結束索引：
				dataEnd=(i+1)*dataCountPerThread;
				//擷取List，作為當前執行緒所需要處理的全部資料：
				if(flag){
					if(j<=addData){
						//多餘的資料,從最後的索引開始平均分配
						addList.add(tempList.get(tempList.size()-j));
						j++;
					}
					dealList=subData(tempList,dataStart, dataEnd);
					if(addList.size()!=0){
						dealList.add(addList.get(0));
						addList.remove(0);
					}
				}else{
					dealList=subData(tempList,dataStart, dataEnd);
					//如果這裡不使用subData，而是使用subList，則會報錯：java.util.ConcurrentModificationException
					//dealList=comList.subList(dataStart, dataEnd);
				}
				
				Callable<Map<String,Object>> c1 = new CallableCountThread(condition,dealList,VpcFlag,slbFlag,blockFlag,vpnFlag,latch);
				Future<Map<String,Object>> f1=pool.submit(c1);
				list.add(f1);
			}
			
			latch.await();
			for(int i=0;i<list.size();i++){
				Future<Map<String,Object>> f1=list.get(i);
					total+=(Integer)f1.get().get("count");
					if(null!=f1.get().get("data")){
						dataList.addAll((List<JSONObject>)f1.get().get("data"));
					}
					
			}
			doPage_special(total);
			//3.查詢分頁開始和結束的索引位
			int  nowpage2 = (Integer) dataMap.get("nowpage"); 
			int  pagesize2 = (Integer) dataMap.get("pagesize");
			
			List<JSONObject> showData=new ArrayList<JSONObject>();
			if(dataList.size()==0){
				
			}else{
				if(nopage==1){
					if(dataList.size()<=pagesize2){
						showData=dataList.subList(0,dataList.size()-1);
						showData.add(dataList.get(dataList.size()-1));
					}else{
						showData=dataList.subList(0,pagesize2);
					}
				}else{
					if(dataList.size()<=(nopage)*pagesize2){
						showData=dataList.subList((nopage-1)*pagesize2,dataList.size()-1);
						showData.add(dataList.get(dataList.size()-1));
					}else{
						showData=dataList.subList((nopage-1)*pagesize2,nopage*pagesize2);
					}
				}
			}
			generateSuccessListResponse(showData);
		} catch (InterruptedException | ExecutionException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		return JSON;
	}

二、查詢效率

沒有使用duox多執行緒：

查詢時間在16s左右

使用多執行緒查詢：

查詢時間在1.7s左右

查詢速度提升了十倍。

三、心得總結：

1.寫程式碼的時候，不能僅僅只考慮功能的實現。特別是涉及到資料量比較大的時候，任何一次查詢的精簡，帶來的效率提升都是顯著的。

2.多執行緒在具體場景中的使用是非常重要的。在涉及到返回值的時候，就需要使用到Callable介面。

3.任何時候，寫完程式碼，都要自己給自己做code review。回過頭去看看自己寫的程式碼。能不能優化，能不能再優化。

Oracle 大資料量查詢優化

前言:平常寫的SQL可能主要以實現查詢出結果為主,但如果資料量一大,就會突出SQL查詢語句優化的效能獨特之處.一般的資料庫設計都會建索引查詢,這樣較全盤掃描查詢的確快了不少.下面總結下SQL查詢語句的幾個優化效率的地方,經驗有限,難免有不足. 1.對查詢進行優化，應儘

Mysql千萬級大資料量查詢優化

1.對查詢進行優化，應儘量避免全表掃描，首先應考慮在 where 及 order by 涉及的列上建立索引。2.應儘量避免在 where 子句中對欄位進行 null 值判斷，否則將導致引擎放棄使用索引而進行全表掃描，如：select id from t where num i

大資料量查詢優化

問題描述：涉及到大資料量，多迴圈查詢的時候，往往查詢的速度會變慢，影響系統的使用效能。該問題，在測試環境尚不明顯，因為測試環境的資料量畢竟是有限的。但是，一旦將程式碼更新到線上的真實系統，因為資料量一下子增大，會造成資料查詢的緩慢，所造成的嚴重遲滯，就不能被忽略了。業

.Net中EF針對大資料量查詢超時的一種優化

舊程式碼：--receiptIds id集合，每次查1000左右var mappingList = new List<FinanceSettlementMapping>();mappingList.AddRange(SettlementMappingRepos

關於大資料量查詢報表優化

針對資料量巨大的報表查詢，總結了一下幾個處理方法：看一個運用案例：多粒度（年月日，省、地市、熱點、ac、ap）下每天20W條，每月800W條，自由選擇35天內資料的查詢。直接查詢頁面崩潰，運用了以下幾點，基本上能保證在1-2分鐘（100秒左右）內頁面相應載入。一：

mysql大資料量下優化

1 優化sql和索引2 增加快取如：redis3 主從複製或主主複製，讀寫分離4 利用mysql自帶分割槽表5 先做垂直拆分，將一個大系統分為多個小系統，也就是分散式6 水平切分，要選擇一個合理的sharding key,為了有好的查詢效率，表結構也要改動，做一定的冗餘，應用也要改，sql中儘量帶shardi

大資料量查詢

問題在使用sql查詢大量的資料時，發現十分耗時解決當然解決方法會有很多。在這裡記錄一些自己用到的方法。一般資料一大，速度就會下降。所以應該有效的切割這些資料。比如每1000條查詢一次。同時查詢條件儘量選擇主鍵id，這時候的查詢效果會非常好。如果使用

MySQL 大資料量表優化方案

單表優化除非單表資料未來會一直不斷上漲(例如網路爬蟲)，否則不要一開始就考慮拆分，拆分會帶來邏輯、部署、運維的各種複雜度一般以整型值為主的表在千萬級以下，字串為主的表在五百萬以下是沒有太大問題的。而事實上很多時候 MySQL 單表的效能依然有不少優化空間，甚至能正

MySQL的MyISAM和InnoDB的大資料量查詢效能比較

因為工作關係，有一個超過11億記錄的MySQL資料庫，之前一直以為MyISAM引擎的查詢效能會超過InnoDB，這兩天特意測試了一下，不過因為資料量太大，轉換引擎就花了幾天時間。測試環境： DELL 860伺服器，CPU Xeon3210, 記憶體8G MySQL版本5

提高MYSQL大資料量查詢的速度

1.對查詢進行優化，應儘量避免全表掃描，首先應考慮在 where 及 order by 涉及的列上建立索引。 2.應儘量避免在 where 子句中對欄位進行 null 值判斷，否則將導致引擎放棄使用索引而進行全表掃描，如：select id from t wher

大資料量查詢容易OOM？試試MySQL流式查詢

![mark](https://img2020.cnblogs.com/other/1769816/202101/1769816-20210104093317640-597087048.png) ## 一、前言程式訪問 `MySQL` 資料庫時，當查詢出來的資料量特別大時，資料庫驅動把載入到的資料全部載入到

afs在大資料量時查詢優化

afs查詢，mule報錯的問題 1.mule報錯的原因 a)mule預設請求響應時間為10s,當請求返回的時間超過10秒就會報錯 2.導致請求時間過長的原因 a)欄位沒有建索引，count(*)統計記錄總數耗時過長(283W記錄統計耗時8-9s) b)一次性請求數量過多(經測試500條資料4

大資料量表的查詢優化及索引使用

一、對於運算邏輯，儘可能將要統計的各專案整合在一個查詢語句中計算，而不是用分組條件或分專案呼叫多個查詢語句，而後在程式碼裡計算結果。二、查詢語句的優化，諸如不用"select *"、多表關聯查詢時新增別名於查詢欄位上、避免使用in、not in關鍵字、非去除重複時用union all替換uni

MySQL大資料量分頁查詢方法及其優化 MySQL大資料量分頁查詢方法及其優化

MySQL大資料量分頁查詢方法及其優化 ---方法1: 直接使用資料庫提供的SQL語句---語句樣式: MySQL中,可用如下方法: SELECT * FROM 表名稱 LIMIT M,N ---適應場景: 適用於資料量較少的情況(元組百/千級) --

MySQL大資料量分頁查詢方法及其優化 ---方法1: 直接使用資料庫提供的SQL語句 ---語句樣式: MySQL中,可用如下方法: SELECT * FROM 表名稱 LIMIT M,N ---適

測試實驗 1. 直接用limit start, count分頁語句，也是我程式中用的方法： select * from product limit start, count 當起始頁較小時，查詢沒有效能問題，我們分別看下從10， 100， 1000， 10000開始分頁的執行時間（每頁取20條），如

Mysql查詢優化——中間表方法優化count()統計大資料量總數問題

在上一篇博文我們提到，分頁有三種方法。其中，第三種是我們最常用的。然而，在實際應用過程中我們會發現，select count(*) from tname 語句在統計某表內記錄總數時，如果表內資料量達到一定規模（比如100W條），這個語句就會執行得非常慢。有什麼辦法可以加快統計

sql優化（查詢大資料量時sql執行時間過長）

問題：Oracle資料庫 sql查詢的優化（成交額統計表的sql查詢時間過長進行的優化）解決辦法：對sql語句中使用檢視的部分替換為子查詢，對查詢表條件欄位建立索引引發的問題：在什麼情況下建立索引，及建立索引後引發的開銷有哪些經查詢oracle的索引機制，摘錄如下：

大資料量實時統計排序分頁查詢優化總結

大資料量實時統計排序分頁查詢(併發數較小時) 的瓶頸不是函式（count，sum等）執行，不是having, 也不是order by，甚至不是表join, 導致慢的原因就在於“資料量太大本身” 化整為零就是將表劃分為M份相互獨立的部分,可以是分表，也可以是不分表

mysql limit做分頁查詢的優化（大資料量）

mysql limit查詢優化，由於limit經常用到，卻沒有注意，因為平時做的專案都比較小，所以也沒有考慮去怎麼優化，MYSQL的優化是非常重要的。其他最常用也最需要優化的就是limit。mysql的limit給分頁帶來了極大的方便，但資料量一大的時候，limit的效能就急

MySQL大資料量分頁查詢方法及其優化

方法1: 直接使用資料庫提供的SQL語句語句樣式: MySQL中,可用如下方法: SELECT * FROM 表名稱 LIMIT M,N 適應場景: 適用於資料量較少的情況(元組百/千級) 原因/缺點: 全表掃描,速度會很慢且有的資料庫結果集返回不穩定(如某次返回

大資料量查詢優化

相關推薦