sql語句百萬數據量優化方案
一:理解sql執行順序
在sql中,第一個被執行的是from語句,每一個步驟都會產生一個虛擬表,該表供下一個步驟查詢時調用,比如語句:select top 10 column1,colum2,max(column3) from user where id>1 group by column1,colum2 having count(column1)>1 order by colum2.
sqlserver 2005 各個環節簡單介紹:
(8)SELECT (9)DISTINCT (11)<Top Num> <select list>(1)FROM [left_table] (3)<join_type> JOIN <right_table> (2)ON <join_condition> (4)WHERE <where_condition> (5)GROUP BY <group_by_list> (6)WITH <CUBE | RollUP> (7)HAVING <having_condition> (10)ORDER BY <order_by_list>
a)各個步驟簡介:
- FROM:對FROM子句中的多個表執行笛卡爾積(Cartesian product)(交叉聯接),生成虛擬表VT1
- ON:對VT1應用ON篩選器。只有那些使<join_condition>為真的行才被插入VT2。
- OUTER(JOIN):如 果指定了OUTER JOIN(相對於CROSS JOIN 或(INNER JOIN),保留表(preserved table:左外部聯接把左表標記為保留表,右外部聯接把右表標記為保留表,完全外部聯接把兩個表都標記為保留表)中未找到匹配的行將作為外部行添加到 VT2,生成VT3.如果FROM子句包含兩個以上的表,則對上一個聯接生成的結果表和下一個表重復執行步驟1到步驟3,直到處理完所有的表為止。
- WHERE:對VT3應用WHERE篩選器。只有使<where_condition>為true的行才被插入VT4.
- GROUP BY:按GROUP BY子句中的列列表對VT4中的行分組,生成VT5.
- CUBE|ROLLUP:把超組(Suppergroups)插入VT5,生成VT6.
- HAVING:對VT6應用HAVING篩選器。只有使<having_condition>為true的組才會被插入VT7.
- SELECT:處理SELECT列表,產生VT8.
- DISTINCT:將重復的行從VT8中移除,產生VT9.
- ORDER BY:將VT9中的行按ORDER BY 子句中的列列表排序,生成遊標(VC10).
- TOP:從VC10的開始處選擇指定數量或比例的行,生成表VT11,並返回調用者.
b)標準sql執行順序是:
1:form 組裝來自不同表的數據,如 form user或者,form user as u join goodsOrder as r on u.id= r.userid
2:where 過濾符合查詢條件的數據,如:id>1000
3:group by 將查詢數據進行分組
4:使用sum等聚合函數進行計算。
5:使用having 進行篩選分組。
6:執行select語種
7:執行排序語句
如:select count(gid),gname from shopping_goods where gcid=1 group by gname having count(gid)>1 order by count(gid) desc
1:首頁查詢shopping_goods 表,得到表中的數據
2:執行where,過濾出gcid=1的商品。
3:對gname進行分組。
4:使用聚合函數count(),計算出商品類型為1,不同商品名稱的數量.
5:使用having,過濾出類型為1,商品統計數量大於1的商品
6:執行select語句
7:執行order by ,按照商品數量降序排列。
二:百萬數據量優化
這裏只介紹查詢和修改的方法,如果是系統優化,需要從表結構,索引,表分區等方面處理。
1:合理使用索引,在一個大數據量的表中,並不是索引越多越好,索引越多,寫操作越慢,建議在以下字段上創建索引。
●在經常進行連接,但是沒有指定為外鍵的列上建立索引,而不經常連接的字段則由優化器自動生成索引。
●在頻繁進行排序或分組(即進行group by或order by操作)的列上建立索引。
●在條件表達式中經常用到的不同值較多的列上建立檢索,在不同值少的列上不要建立索引。比如在雇員表的“性別”列上只有“男”與“女”兩個不同值,因此就無必要建立索引。如果建立索引不但不會提高查詢效率,反而會嚴重降低更新速度。
●如果待排序的列有多個,可以在這些列上建立復合索引(compound index)。
●使用系統工具。如Informix數據庫有一個tbcheck工具,可以在可疑的索引上進行檢查。在一些數據庫服務器上,索引可能失效或者因為頻繁操作而使得讀取效率降低,如果一個使用索引的查詢不明不白地慢下來,可以試著用tbcheck工具檢查索引的完整性,必要時進行修復。另外,當數據庫表更新大量數據後,刪除並重建索引可以提高查詢速度。
2:盡量少用(或者不用)sqlserver 自帶的函數
a):如dateadd(month,-1,getdate()),請使用time>‘2017-09-19 23:42:44.770 ‘代替dateadd.
b):如datediff(day,‘2017-10-20‘,‘2017-10-25‘),select datepart(day,getdate());,如需計算兩個日期之前的差值,或者得到日期中的整數部分,建議查詢完畢後用java程序來計算,不要什麽都讓數據庫來做.
c:) 如:substring(name,1,3) = ’abc’,建議修改為 name like ‘abc%‘
3:盡量不要在 where 子句中對字段進行 null 值判斷,否則將導致引擎放棄使用索引而進行全表掃描,強烈建議where涉及的列,不要留空,創建表時賦予初始值
錯誤
select id from table where name is not null
正確
create table table(name varchar(20) default ‘‘)
4:應盡量避免在 where 子句中使用 != 或 <> 操作符,否則將引擎放棄使用索引而進行全表掃描。
錯誤 select id from table where id <> 100
5:應盡量避免在 where 子句中使用 or 來連接條件,如果一個字段有索引,一個字段沒有索引,將導致引擎放棄使用索引而進行全表掃描,建議使用unall 來代替or
select id from table where num=1 or Name = ‘zhangsan‘ 建議修改為 select id from table where num=1 unionall select id from table where name = ‘zhangsan‘
6:建議使用exists 來代替in
select id from t where role in (select rid from role where rName = ‘經理‘,‘總監‘) 建議修改為 select id from t as a where exists (select rid from role as b where a.role = b.rid and rName = ‘經理‘)
7:like 的用法
除了 title like ‘重慶%‘ ,其它使用方法(如:title like ‘%王%‘ title like ‘%天‘)也將導致全表掃描
8:where 中盡量不要出現表達式計算
如:
select id from t where num/2 = 100
應改為:
select id from t where num = 100*2
9:Update 語句,如果只更改1、2個字段,不要Update全部字段,否則頻繁調用會引起明顯的性能消耗,同時帶來大量日誌。強烈建議修改時使用動態sql語句,類似hibernate中dynamic-update=true,不過hibernate需要將修改對像通過id查詢出來,才會動態修改,如果是普通sql,直接組裝就可以。
10:對於多張大數據量(這裏幾百條就算大了)的表JOIN,要先分頁再JOIN,否則邏輯讀會很高,性能很差.
11:不要寫一些沒有意義的查詢,如需要生成一個空表結構:
select col1,col2 into #t from t where 1=0
12:盡量使用數字型字段,若只含數值信息的字段盡量不要設計為字符型,這會降低查詢和連接的性能,並會增加存儲開銷。這是因為引擎在處理查詢和連 接時會逐個比較字符串中每一個字符,而對於數字型而言只需要比較一次就夠了。
13:盡可能的使用 varchar/nvarchar 代替 char/nchar ,因為首先變長字段存儲空間小,可以節省存儲空間,其次對於查詢來說,在一個相對較小的字段內搜索效率顯然要高些。
14:不建議使用 select * from t ,用具體的字段列表代替“*”,不要返回用不到的任何字段。
15:盡量避免使用遊標,因為遊標的效率較差,如果遊標操作的數據超過1萬行,那麽就應該考慮改寫。
16:在所有的存儲過程和觸發器的開始處設置 SET NOCOUNT ON ,在結束時設置 SET NOCOUNT OFF 。無需在執行存儲過程和觸發器的每個語句後向客戶端發送 DONE_IN_PROC 消息。
17:盡量避免大事務操作,提高系統並發能力。並且不要事務嵌套,不要在事務中去調用其它系統的接口,不要在事務中耗時操作,不然死鎖並伴你左右。
18:盡量避免向客戶端返回大數據量,若數據量過大,應該考慮相應需求是否合理。(筆者曾經處理過,從3000萬手機號碼庫中,模糊查詢出上萬個手機號碼,這種需求是客戶硬性要求,就要通過executorservice了,不要直接寫sql查)
19:如果數據庫是mysql,一定要利用數據庫引擎,不同業務要使用不同的數據庫引擎。比如常用的innodb和myisam,innodb支持事務,支持外鍵,鎖是表級鎖,缺點是查詢速度慢,Myisam 的執行速度更快,性能更好,但不支持外鍵,不支持事務,鎖是行鎖級。比如日誌表,數據量大,強烈建議使用myisam引擎.
以上有些來自網絡,有些來自工作中的總結,後期還會完善,如有錯誤,請指出,謝謝。
sql語句百萬數據量優化方案