1. 程式人生 > 其它 >SQL優化最幹活總結 (建議收藏)!!

SQL優化最幹活總結 (建議收藏)!!

Part1前言

BATJTMD等大廠的面試難度越來越高,但無論從大廠還是到小公司,一直未變的一個重點就是對SQL優化經驗的考察。一提到資料庫,先“說一說你對SQL優化的見解吧?”。SQL優化已經成為衡量程式猿優秀與否的硬性指標,甚至在各大廠招聘崗位職能上都有明碼標註,如果是你,在這個問題上能吊打面試官還是會被吊打呢?(注:如果看著模糊,可能是你擼多了)

Part2

有朋友疑問到,SQL優化真的有這麼重要麼?如下圖所示,SQL優化在提升系統性能中是:(成本最低 && 優化效果最明顯) 的途徑。如果你的團隊在SQL優化這方面搞得很優秀,對你們整個大型系統可用性方面無疑是一個質的跨越,真的能讓你們老闆省下不止幾沓子錢。

  • 優化成本:硬體>系統配置>資料庫表結構>SQL及索引。

  • 優化效果:硬體<系統配置<資料庫表結構<SQL及索引。

  1.   String result = "嗯,不錯,";
  2.    
  3.   if ("SQL優化經驗足") {
  4.       if ("熟悉事務鎖") {
  5.           if ("併發場景處理666") {
  6.               if ("會打王者榮耀") {
  7.                   result += "明天入職" 
  8.               }
  9.           }
  10.       }
  11.   } else {
  12.       result += "先回去等訊息吧";
  13.   } 
  14.    
  15.   Logger.info("面試官:" + result );

別看了,上面這是一道送命題。好了我們言歸正傳,首先,對於MySQL層優化我一般遵從五個原則:

  1. 減少資料訪問:設定合理的欄位型別,啟用壓縮,通過索引訪問等減少磁碟IO

  2. 返回更少的資料:只返回需要的欄位和資料分頁處理 減少磁碟io及網路io

  3. 減少互動次數:批量DML操作,函式儲存等減少資料連線次數

  4. 減少伺服器CPU開銷:儘量減少資料庫排序操作以及全表查詢,減少cpu 記憶體佔用

  5. 利用更多資源:使用表分割槽,可以增加並行操作,更大限度利用cpu資源

總結到SQL優化中,就三點:

  • 最大化利用索引;

  • 儘可能避免全表掃描;

  • 減少無效資料的查詢;

理解SQL優化原理 ,首先要搞清楚SQL執行順序:

Part3SELECT語句

語法順序:

  1. SELECT

  2. DISTINCT <select_list>

  3. FROM <left_table>

  4. <join_type> JOIN <right_table>

  5. ON <join_condition>

  6. WHERE <where_condition>

  7. GROUP BY <group_by_list>

  8. HAVING <having_condition>

  9. ORDER BY <order_by_condition>

  10. LIMIT <limit_number>

執行順序:

FROM<表名> # 選取表,將多個表資料通過笛卡爾積變成一個表。

ON<篩選條件> # 對笛卡爾積的虛表進行篩選

JOIN <join, left join, right join...>

<join表> # 指定join,用於新增資料到on之後的虛表中,例如left join會將左表的剩餘資料新增到虛表中

WHERE<where條件> # 對上述虛表進行篩選

GROUP BY<分組條件> # 分組

<SUM()等聚合函式> # 用於having子句進行判斷,在書寫上這類聚合函式是寫在having判斷裡面的

HAVING<分組篩選> # 對分組後的結果進行聚合篩選

SELECT<返回資料列表> # 返回的單列必須在group by子句中,聚合函式除外

DISTINCT資料除重

ORDER BY<排序條件> # 排序

LIMIT<行數限制>

Part4SQL優化策略

宣告:以下SQL優化策略適用於資料量較大的場景下,如果資料量較小,沒必要以此為準,以免畫蛇添足。

1避免不走索引的場景

1. 儘量避免在欄位開頭模糊查詢,會導致資料庫引擎放棄索引進行全表掃描。如下:

SELECT * FROM t WHERE username LIKE '%陳%'

優化方式:儘量在欄位後面使用模糊查詢。如下:

SELECT * FROM t WHERE username LIKE '陳%'

如果需求是要在前面使用模糊查詢,

  • 使用MySQL內建函式INSTR(str,substr) 來匹配,作用類似於java中的indexOf(),查詢字串出現的角標位置,可參閱《MySQL模糊查詢用法大全(正則、萬用字元、內建函式等)》

  • 使用FullText全文索引,用match against 檢索

  • 資料量較大的情況,建議引用ElasticSearch、solr,億級資料量檢索速度秒級

  • 當表資料量較少(幾千條兒那種),別整花裡胡哨的,直接用like '%xx%'。

2. 儘量避免使用in 和not in,會導致引擎走全表掃描。如下:

SELECT * FROM t WHERE id IN (2,3)

優化方式:如果是連續數值,可以用between代替。如下:

SELECT * FROM t WHERE id BETWEEN 2 AND 3

如果是子查詢,可以用exists代替。詳情見《MySql中如何用exists代替in》如下:

  1.   -- 不走索引
  2.   select * from A where A.id in (select id from B);
  3.   -- 走索引
  4.   select * from A where exists (select * from B where B.id = A.id);

3. 儘量避免使用 or,會導致資料庫引擎放棄索引進行全表掃描。如下:

SELECT * FROM t WHERE id = 1 OR id = 3

優化方式:可以用union代替or。如下:

  1.   SELECT * FROM t WHERE id = 1
  2.      UNION
  3.   SELECT * FROM t WHERE id = 3

4. 儘量避免進行null值的判斷,會導致資料庫引擎放棄索引進行全表掃描。如下:

SELECT * FROM t WHERE score IS NULL

優化方式:可以給欄位新增預設值0,對0值進行判斷。如下:

SELECT * FROM t WHERE score = 0

5.儘量避免在where條件中等號的左側進行表示式、函式操作,會導致資料庫引擎放棄索引進行全表掃描。

可以將表示式、函式操作移動到等號右側。如下:

  1.   -- 全表掃描
  2.   SELECT * FROM T WHERE score/10 = 9
  3.   -- 走索引
  4.   SELECT * FROM T WHERE score = 10*9

6. 當資料量大時,避免使用where 1=1的條件。通常為了方便拼裝查詢條件,我們會預設使用該條件,資料庫引擎會放棄索引進行全表掃描。如下:

SELECT username, age, sex FROM T WHERE 1=1

優化方式:用程式碼拼裝sql時進行判斷,沒 where 條件就去掉 where,有where條件就加 and。

7. 查詢條件不能用 <> 或者 !=

使用索引列作為條件進行查詢時,需要避免使用<>或者!=等判斷條件。如確實業務需要,使用到不等於符號,需要在重新評估索引建立,避免在此欄位上建立索引,改由查詢條件中其他索引欄位代替。

8. where條件僅包含複合索引非前置列

如下:複合(聯合)索引包含key_part1,key_part2,key_part3三列,但SQL語句沒有包含索引前置列"key_part1",按照MySQL聯合索引的最左匹配原則,不會走聯合索引。詳情參考《聯合索引的使用原理》。

select col1 from table where key_part2=1 and key_part3=2

9. 隱式型別轉換造成不使用索引

如下SQL語句由於索引對列型別為varchar,但給定的值為數值,涉及隱式型別轉換,造成不能正確走索引。

select col1 from table where col_varchar=123;

10. order by 條件要與where中條件一致,否則order by不會利用索引進行排序

  1.   -- 不走age索引
  2.   SELECT * FROM t order by age;
  3.    
  4.   -- 走age索引
  5.   SELECT * FROM t where age > 0 order by age;

對於上面的語句,資料庫的處理順序是:

  • 第一步:根據where條件和統計資訊生成執行計劃,得到資料。

  • 第二步:將得到的資料排序。當執行處理資料(order by)時,資料庫會先檢視第一步的執行計劃,看order by 的欄位是否在執行計劃中利用了索引。如果是,則可以利用索引順序而直接取得已經排好序的資料。如果不是,則重新進行排序操作。

  • 第三步:返回排序後的資料。

當order by 中的欄位出現在where條件中時,才會利用索引而不再二次排序,更準確的說,order by 中的欄位在執行計劃中利用了索引時,不用排序操作。

這個結論不僅對order by有效,對其他需要排序的操作也有效。比如group by 、union 、distinct等。

11. 正確使用hint優化語句

MySQL中可以使用hint指定優化器在執行時選擇或忽略特定的索引。一般而言,處於版本變更帶來的表結構索引變化,更建議避免使用hint,而是通過Analyze table多收集統計資訊。但在特定場合下,指定hint可以排除其他索引干擾而指定更優的執行計劃。

  • USE INDEX 在你查詢語句中表名的後面,新增 USE INDEX 來提供希望 MySQL 去參考的索引列表,就可以讓 MySQL 不再考慮其他可用的索引。例子: SELECT col1 FROM table USE INDEX (mod_time, name)...

  • IGNORE INDEX 如果只是單純的想讓 MySQL 忽略一個或者多個索引,可以使用 IGNORE INDEX 作為 Hint。例子: SELECT col1 FROM table IGNORE INDEX (priority) ...

  • FORCE INDEX 為強制 MySQL 使用一個特定的索引,可在查詢中使用FORCE INDEX 作為Hint。例子: SELECT col1 FROM table FORCE INDEX (mod_time) ...

在查詢的時候,資料庫系統會自動分析查詢語句,並選擇一個最合適的索引。但是很多時候,資料庫系統的查詢優化器並不一定總是能使用最優索引。如果我們知道如何選擇索引,可以使用FORCE INDEX強制查詢使用指定的索引。《MySQL中特別實用的幾種SQL語句送給大家》博文建議閱讀,乾貨

例如:

SELECT * FROM students FORCE INDEX (idx_class_id) WHERE class_id = 1 ORDER BY id DESC;

Part5SELECT語句其他優化

1. 避免出現select *

首先,select * 操作在任何型別資料庫中都不是一個好的SQL編寫習慣。

使用select * 取出全部列,會讓優化器無法完成索引覆蓋掃描這類優化,會影響優化器對執行計劃的選擇,也會增加網路頻寬消耗,更會帶來額外的I/O,記憶體和CPU消耗。

建議提出業務實際需要的列數,將指定列名以取代select *.具體詳情見《為什麼大家都說SELECT * 效率低》

2. 避免出現不確定結果的函式

特定針對主從複製這類業務場景。由於原理上從庫複製的是主庫執行的語句,使用如now()、rand()、sysdate()、current_user()等不確定結果的函式很容易導致主庫與從庫相應的資料不一致。另外不確定值的函式,產生的SQL語句無法利用query cache。

3.多表關聯查詢時,小表在前,大表在後。

在MySQL中,執行 from 後的表關聯查詢是從左往右執行的(Oracle相反),第一張表會涉及到全表掃描,所以將小表放在前面,先掃小表,掃描快效率較高,在掃描後面的大表,或許只掃描大表的前100行就符合返回條件並return了。

例如:表1有50條資料,表2有30億條資料;如果全表掃描表2,你品,那就先去吃個飯再說吧是吧。

4. 使用表的別名

當在SQL語句中連線多個表時,請使用表的別名並把別名字首於每個列名上。這樣就可以減少解析的時間並減少哪些友列名歧義引起的語法錯誤。

5. 用where字句替換HAVING字句

避免使用HAVING字句,因為HAVING只會在檢索出所有記錄之後才對結果集進行過濾,而where則是在聚合前刷選記錄,如果能通過where字句限制記錄的數目,那就能減少這方面的開銷。HAVING中的條件一般用於聚合函式的過濾,除此之外,應該將條件寫在where字句中。

where和having的區別:where後面不能使用組函式

6.調整Where字句中的連線順序

MySQL採用從左往右,自上而下的順序解析where子句。根據這個原理,應將過濾資料多的條件往前放,最快速度縮小結果集。

Part6增刪改 DML 語句優化

1. 大批量插入資料

如果同時執行大量的插入,建議使用多個值的INSERT語句(方法二)。這比使用分開INSERT語句快(方法一),一般情況下批量插入效率有幾倍的差別。

方法一:

  1.   insert into T values(1,2); 
  2.    
  3.   insert into T values(1,3); 
  4.    
  5.   insert into T values(1,4);

方法二:

Insert into T values(1,2),(1,3),(1,4);

選擇後一種方法的原因有三。

  • 減少SQL語句解析的操作,MySQL沒有類似Oracle的share pool,採用方法二,只需要解析一次就能進行資料的插入操作;

  • 在特定場景可以減少對DB連線次數

  • SQL語句較短,可以減少網路傳輸的IO。

2. 適當使用commit

適當使用commit可以釋放事務佔用的資源而減少消耗,commit後能釋放的資源如下:

  • 事務佔用的undo資料塊;

  • 事務在redo log中記錄的資料塊;

  • 釋放事務施加的,減少鎖爭用影響效能。特別是在需要使用delete刪除大量資料的時候,必須分解刪除量並定期commit。

3. 避免重複查詢更新的資料

針對業務中經常出現的更新行同時又希望獲得改行資訊的需求,MySQL並不支援PostgreSQL那樣的UPDATE RETURNING語法,在MySQL中可以通過變數實現。

例如,更新一行記錄的時間戳,同時希望查詢當前記錄中存放的時間戳是什麼,簡單方法實現:

  1.   Update t1 set time=now() where col1=1; 
  2.    
  3.   Select time from t1 where id =1;

使用變數,可以重寫為以下方式:

  1.   Update t1 set time=now () where col1=1 and @now: = now (); 
  2.    
  3.   Select @now;

前後二者都需要兩次網路來回,但使用變數避免了再次訪問資料表,特別是當t1表資料量較大時,後者比前者快很多。

4.查詢優先還是更新(insert、update、delete)優先

MySQL 還允許改變語句排程的優先順序,它可以使來自多個客戶端的查詢更好地協作,這樣單個客戶端就不會由於鎖定而等待很長時間。改變優先順序還可以確保特定型別的查詢被處理得更快。我們首先應該確定應用的型別,判斷應用是以查詢為主還是以更新為主的,是確保查詢效率還是確保更新的效率,決定是查詢優先還是更新優先。下面我們提到的改變排程策略的方法主要是針對只存在表鎖的儲存引擎,比如 MyISAM 、MEMROY、MERGE,對於Innodb 儲存引擎,語句的執行是由獲得行鎖的順序決定的。MySQL 的預設的排程策略可用總結如下:

  1. 寫入操作優先於讀取操作。

  2. 對某張資料表的寫入操作某一時刻只能發生一次,寫入請求按照它們到達的次序來處理。

  3. 對某張資料表的多個讀取操作可以同時地進行。MySQL 提供了幾個語句調節符,允許你修改它的排程策略:

  • LOW_PRIORITY關鍵字應用於DELETE、INSERT、LOAD DATA、REPLACE和UPDATE;

  • HIGH_PRIORITY關鍵字應用於SELECT和INSERT語句;

  • DELAYED關鍵字應用於INSERT和REPLACE語句。

如果寫入操作是一個 LOW_PRIORITY(低優先順序)請求,那麼系統就不會認為它的優先順序高於讀取操作。在這種情況下,如果寫入者在等待的時候,第二個讀取者到達了,那麼就允許第二個讀取者插到寫入者之前。只有在沒有其它的讀取者的時候,才允許寫入者開始操作。這種排程修改可能存在 LOW_PRIORITY寫入操作永遠被阻塞的情況。

SELECT 查詢的HIGH_PRIORITY(高優先順序)關鍵字也類似。它允許SELECT 插入正在等待的寫入操作之前,即使在正常情況下寫入操作的優先順序更高。另外一種影響是,高優先順序的 SELECT 在正常的 SELECT 語句之前執行,因為這些語句會被寫入操作阻塞。如果希望所有支援LOW_PRIORITY 選項的語句都預設地按照低優先順序來處理,那麼 請使用--low-priority-updates 選項來啟動伺服器。通過使用 INSERTHIGH_PRIORITY 來把 INSERT 語句提高到正常的寫入優先順序,可以消除該選項對單個INSERT語句的影響。

Part7查詢條件優化

1. 對於複雜的查詢,可以使用中間臨時表 暫存資料;

2. 優化group by語句

預設情況下,MySQL 會對GROUP BY分組的所有值進行排序,如 “GROUP BY col1,col2,....;” 查詢的方法如同在查詢中指定 “ORDER BY col1,col2,...;” 如果顯式包括一個包含相同的列的 ORDER BY子句,MySQL 可以毫不減速地對它進行優化,儘管仍然進行排序。

因此,如果查詢包括 GROUP BY 但你並不想對分組的值進行排序,你可以指定 ORDER BY NULL禁止排序。例如:

SELECT col1, col2, COUNT(*) FROM table GROUP BY col1, col2 ORDER BY NULL ;

3. 優化join語句

MySQL中可以通過子查詢來使用 SELECT 語句來建立一個單列的查詢結果,然後把這個結果作為過濾條件用在另一個查詢中。使用子查詢可以一次性的完成很多邏輯上需要多個步驟才能完成的 SQL 操作,同時也可以避免事務或者表鎖死,並且寫起來也很容易。但是,有些情況下,子查詢可以被更有效率的連線(JOIN)..替代。

例子:假設要將所有沒有訂單記錄的使用者取出來,可以用下面這個查詢完成:

SELECT col1 FROM customerinfo WHERE CustomerID NOT in (SELECT CustomerID FROM salesinfo )

如果使用連線(JOIN).. 來完成這個查詢工作,速度將會有所提升。尤其是當 salesinfo表中對 CustomerID 建有索引的話,效能將會更好,查詢如下:

  1.   SELECT col1 FROM customerinfo 
  2.      LEFT JOIN salesinfoON customerinfo.CustomerID=salesinfo.CustomerID 
  3.         WHERE salesinfo.CustomerID IS NULL

連線(JOIN).. 之所以更有效率一些,是因為 MySQL 不需要在記憶體中建立臨時表來完成這個邏輯上的需要兩個步驟的查詢工作。

4. 優化union查詢

MySQL通過建立並填充臨時表的方式來執行union查詢。除非確實要消除重複的行,否則建議使用union all。原因在於如果沒有all這個關鍵詞,MySQL會給臨時表加上distinct選項,這會導致對整個臨時表的資料做唯一性校驗,這樣做的消耗相當高。

高效:

  1.   SELECT COL1, COL2, COL3 FROM TABLE WHERE COL1 = 10 
  2.    
  3.   UNION ALL 
  4.    
  5.   SELECT COL1, COL2, COL3 FROM TABLE WHERE COL3= 'TEST';

低效:

  1.   SELECT COL1, COL2, COL3 FROM TABLE WHERE COL1 = 10 
  2.    
  3.   UNION 
  4.    
  5.   SELECT COL1, COL2, COL3 FROM TABLE WHERE COL3= 'TEST';

5.拆分複雜SQL為多個小SQL,避免大事務

  • 簡單的SQL容易使用到MySQL的QUERY CACHE;

  • 減少鎖表時間特別是使用MyISAM儲存引擎的表;

  • 可以使用多核CPU。

6. 使用truncate代替delete

當刪除全表中記錄時,使用delete語句的操作會被記錄到undo塊中,刪除記錄也記錄binlog,當確認需要刪除全表時,會產生很大量的binlog並佔用大量的undo資料塊,此時既沒有很好的效率也佔用了大量的資源。

使用truncate替代,不會記錄可恢復的資訊,資料不能被恢復。也因此使用truncate操作有其極少的資源佔用與極快的時間。另外,使用truncate可以回收表的水位,使自增欄位值歸零。

7. 使用合理的分頁方式以提高分頁效率

使用合理的分頁方式以提高分頁效率 針對展現等分頁需求,合適的分頁方式能夠提高分頁的效率。

案例1:

  1.   select * from t where thread_id = 10000 and deleted = 
  2.      order by gmt_create asc limit 0, 15;

上述例子通過一次性根據過濾條件取出所有欄位進行排序返回。資料訪問開銷=索引IO+索引全部記錄結果對應的表資料IO。因此,該種寫法越翻到後面執行效率越差,時間越長,尤其表資料量很大的時候。

適用場景:當中間結果集很小(10000行以下)或者查詢條件複雜(指涉及多個不同查詢欄位或者多表連線)時適用。

案例2:

  1.   select t.* from (select id from t where thread_id = 10000 and deleted = 0
  2.      order by gmt_create asc limit 0, 15) a, t 
  3.         where a.id = t.id;

上述例子必須滿足t表主鍵是id列,且有覆蓋索引secondary key:(thread_id, deleted, gmt_create)。通過先根據過濾條件利用覆蓋索引取出主鍵id進行排序,再進行join操作取出其他欄位。資料訪問開銷=索引IO+索引分頁後結果(例子中是15行)對應的表資料IO。因此,該寫法每次翻頁消耗的資源和時間都基本相同,就像翻第一頁一樣。

適用場景:當查詢和排序欄位(即where子句和order by子句涉及的欄位)有對應覆蓋索引時,且中間結果集很大的情況時適用。

Part8建表優化

  1. 在表中建立索引,優先考慮where、order by使用到的欄位。

  2. 儘量使用數字型欄位(如性別,男:1 女:2),若只含數值資訊的欄位儘量不要設計為字元型,這會降低查詢和連線的效能,並會增加儲存開銷。這是因為引擎在處理查詢和連線時會 逐個比較字串中每一個字元,而對於數字型而言只需要比較一次就夠了。

  3. 查詢資料量大的表 會造成查詢緩慢。主要的原因是掃描行數過多。這個時候可以通過程式,分段分頁進行查詢,迴圈遍歷,將結果合併處理進行展示。要查詢100000到100050的資料,如下:

  1.   SELECT * FROM (SELECT ROW_NUMBER() OVER(ORDER BY ID ASC) AS rowid,* 
  2.      FROM infoTab)t WHERE t.rowid > 100000 AND t.rowid <= 100050
  1. 用varchar/nvarchar 代替 char/nchar

儘可能的使用 varchar/nvarchar 代替 char/nchar ,因為首先變長欄位儲存空間小,可以節省儲存空間,其次對於查詢來說,在一個相對較小的欄位內搜尋效率顯然要高些。不要以為 NULL 不需要空間,比如:char(100) 型,在欄位建立時,空間就固定了, 不管是否插入值(NULL也包含在內),都是佔用 100個字元的空間的,如果是varchar這樣的變長欄位, null 不佔用空間。

BAT等大廠Java面試經驗總結

想獲取 Java大廠面試題學習資料

掃下方二維碼回覆「BAT」就好了

  1.   回覆 【加群】獲取github掘金交流群
  2.   回覆 【電子書】獲取2020電子書教程
  3.   回覆 【C】獲取全套C語言學習知識手冊
  4.   回覆 【Java】獲取java相關的視訊教程和資料
  5.   回覆 【爬蟲】獲取SpringCloud相關多的學習資料
  6.   回覆 【Python】即可獲得Python基礎到進階的學習教程
  7.   回覆 【idea破解】即可獲得intellij idea相關的破解教程
  8.   關注我gitHub掘金,每天發掘一篇好專案,學習技術不迷路!
如果喜歡就給個“在看”