為什麼程式碼規範要求SQL語句不要過多的join？

阿新 • • 發佈：2021-08-25

送分題

面試官：有操作過Linux嗎?

我：有的呀

面試官：我想檢視記憶體的使用情況該用什麼命令

我：free或者top

面試官：那你說一下用free命令都可以看到啥資訊

我：那，如下圖所示可以看到記憶體以及快取的使用情況

total 總記憶體
used 已用記憶體
free 空閒記憶體
buff/cache 已使用的快取
avaiable 可用記憶體

面試官：那你知道怎麼清理已使用的快取嗎(buff/cache)

我：em... 不知道

面試官：sync; echo 3 > /proc/sys/vm/drop_caches就可以清理buff/cache了，你說說我在線上執行這條命令做好不好?

我：(送分題,內心大喜)好處大大的有，清理出快取我們就有更多可用的記憶體空間, 就跟pc上面xx衛士的小火箭一樣，點一下，就釋放出好多的記憶體

面試官：em...., 回去等通知吧

再談SQL Join

面試官：換個話題，談談你對join的理解

我：好的（再答錯就徹底完了,把握住機會)

回顧

SQL中的join可以根據某些條件把指定的表給結合起來並將資料返回給客戶端

join的方式有

inner join內連線

left join左連線

right join右連線

full join全連線

以上圖片源自這裡

面試官：在專案開發中如果需要使用join

語句，如何優化提升效能?

我：分為兩種情況，資料規模小的，資料規模大的。

面試官: 然後?

我：對於

資料規模較小全部幹進記憶體就完事了嗷
資料規模較大

可以通過增加索引來優化join語句的執行速度可以通過冗餘資訊來減少join的次數儘量減少表連線的次數，一個SQL語句表連線的次數不要超過5次

面試官：可以總結為join語句是相對比較耗費效能，對嗎？

我：是的

面試官: 為什麼?

緩衝區

我: 在執行join語句的時候必然要有一個比較的過程

面試官: 是的

我：逐條比較兩個表的語句是比較慢的，因此我們可以把兩個表中資料依次讀進一個記憶體塊中, 以MySQL的InnoDB引擎為例，使用以下語句我們必然可以查到相關的記憶體區域show variables like '%buffer%'

如下圖所示join_buffer_size的大小將會影響我們join語句的執行效能

面試官: 除此之外呢?

一個大前提

我：任何專案終究要上線，不可避免的要產生資料，資料的規模又不可能太小

面試官: 是這樣的

我：大部分資料庫中的資料最終要儲存到硬碟上,並且以檔案的形式進行儲存。

以MySQL的InnoDB引擎為例

InnoDB以頁(page)為基本的IO單位，每個頁的大小為16KB
InnoDB會為每個表建立用於儲存資料的.ibd檔案

驗證

我：這意味著我們有多少表要連線就需要讀多少個檔案，雖然可以利用索引，但還是免不了頻繁的行動硬碟的磁頭

面試官：也就是說頻繁的移動磁頭會影響效能對吧

我：是的，現在的開源框架不都喜歡說自己通過順序讀寫大大的提升了效能嗎，比如hbase、kafka

面試官：說的沒錯，那你認為Linux有對此做出優化嗎?提示，你可以再執行一次free命令看一下

我：奇怪快取怎麼佔用了1.2G多

面試官: 你有沒有想過

buff/cache裡面存的是什麼,？
為什麼buff/cache佔了那麼多記憶體，可用記憶體即availlable還有1.1G？
為什麼你可以通過兩條命令來清理buff/cache佔用的記憶體，而想要釋放used只能通過結束程序來實現?

品，你細品

思考了幾分鐘後

我：這麼隨便就釋放了buff/cache所佔用的記憶體，說明它就不重要, 清除它不會對系統的執行造成影響

面試官: 不完全對

我：難道是？想起來《CSAPP》（深入理解計算機系統）裡面說過一句話

儲存器層次結構的本質是，每一層儲存裝置都是較低一層裝置的快取

翻譯成人話，就是說Linux會把記憶體當作是硬碟的快取記憶體

相關資料 tldp.org/LDP/sag/htm…

面試官：現在知道那道送分題應該怎麼回答了吧

我：我....

Join演算法

面試官：再給你個機會，如果讓你來實現Join演算法你會怎麼做?

我：無索引的話,巢狀迴圈就完事了嗷。有索引的話，則可以利用索引來提升效能.

面試官：說回join_buffer你認為join_buffer裡面儲存的是什麼?

我：在掃描過程中，資料庫會選擇一個表把他要返回以及需要進行和其他表進行比較的資料放進join_buffer

面試官：有索引的情況下是怎麼處理的？

我：這個就比較簡單了，直接讀取兩個表的索引樹進行比較就完事了嗷，我這邊介紹一下無索引的處理方式

Nested Loop Join

巢狀迴圈，每次只讀取表中的一行資料，也就是說如果outerTable有10萬行資料, innerTable有100行資料，需要讀取10000000次(假設這兩個表的檔案沒有被作業系統給快取到記憶體, 我們稱之為冷資料表)

當然現在沒啥資料庫引擎使用這種演算法（太慢了)

Block nested loop

Block塊，也就是說每次都會取一塊資料到記憶體以減少I/O的開銷

當沒有索引可以使用的時候，MySQL InnoDB 就會使用這種演算法

考慮以下兩個表t_a和t_b

當無法使用索引執行join操作的時候，InnoDB會自動使用Block nested loop演算法

總結

上學時，資料庫老師最喜歡考資料庫正規化，直到上班才學會一切以效能為準，能冗餘就冗餘，實在冗餘不了的就join如果join真的影響到效能。試著調大你的join_buffer_size, 或者換固態硬碟。

轉自https://mp.weixin.qq.com/s/dYwuR0ryxRWC97kll4B9Iw

為什麼程式碼規範要求SQL語句不要過多的join？

送分題

再談SQL Join

回顧

緩衝區

一個大前提

Join演算法

Nested Loop Join

Block nested loop

總結

為什麼程式碼規範要求SQL語句不要過多的join？

為什麼 SQL 語句不要過多的 join？

SQL語句優化之JOIN和LEFT JOIN 和 RIGHT JOIN語句的優化

MySql資料庫約束，主鍵和外來鍵約束的新增刪除，程式碼實現，sql語句實現

1.程式碼規範之 if 語句編寫

SQL語句中不同的連線JOIN及join的用法

除錯Django時列印SQL語句的日誌程式碼例項

規範的建表sql語句示例（自用）

Mybaits 實現列印sql語句的程式碼

sql語句左連結left join--3張表關聯

sql語句中join on和where用法的區別和聯絡

List＜Map＜String, Object＞＞型別查詢的時候，sql語句能查到結果，但是用Java程式碼卻查出來size為0的解決辦法

C#sql語句規範

通過ORA錯誤反思sql語句規範(r4筆記第41天)

python基礎知識之程式碼規範，千萬不要小瞧它，要認真學哦~!

Oracle遷移Mysql的sql語句修改需建立的function程式碼

【嘔心總結】python如何與mysql實現互動及常用sql語句

實用 SQL 語句收藏這篇就夠了

Mysql資料庫之常用sql語句進階與總結

Mybatis中的動態SQL語句解析

為什麼程式碼規範要求SQL語句不要過多的join？

送分題

再談SQL Join

回顧

緩衝區

一個大前提

Join演算法

Nested Loop Join

Block nested loop

總結

相關推薦