為什麼程式碼規範要求SQL語句不要過多的join?
送分題
面試官:有操作過Linux嗎?
我:有的呀
面試官:我想檢視記憶體的使用情況該用什麼命令
我:free
或者top
面試官:那你說一下用free命令都可以看到啥資訊
我:那,如下圖所示 可以看到記憶體以及快取的使用情況
- total 總記憶體
- used 已用記憶體
- free 空閒記憶體
- buff/cache 已使用的快取
- avaiable 可用記憶體
面試官:那你知道怎麼清理已使用的快取嗎(buff/cache)
我:em... 不知道
面試官:sync; echo 3 > /proc/sys/vm/drop_caches
就可以清理buff/cache
了,你說說我在線上執行這條命令做好不好?
我:(送分題,內心大喜)好處大大的有,清理出快取我們就有更多可用的記憶體空間, 就跟pc上面xx衛士的小火箭一樣,點一下,就釋放出好多的記憶體
面試官:em...., 回去等通知吧
再談SQL Join
面試官:換個話題,談談你對join的理解
我:好的(再答錯就徹底完了,把握住機會)
回顧
SQL中的join
可以根據某些條件把指定的表給結合起來並將資料返回給客戶端
join
的方式有
inner join
內連線
left join
左連線
right join
右連線
full join
全連線
以上圖片源自這裡
面試官:在專案開發中如果需要使用join
我:分為兩種情況,資料規模小的,資料規模大的。
面試官: 然後?
我:對於
- 資料規模較小全部幹進記憶體就完事了嗷
- 資料規模較大
可以通過增加索引來優化
join
語句的執行速度 可以通過冗餘資訊來減少join
的次數 儘量減少表連線的次數,一個SQL語句表連線的次數不要超過5次
面試官:可以總結為join
語句是相對比較耗費效能,對嗎?
我:是的
面試官: 為什麼?
緩衝區
我: 在執行join語句的時候必然要有一個比較的過程
面試官: 是的
我:逐條比較兩個表的語句是比較慢的,因此我們可以把兩個表中資料依次讀進一個記憶體塊
中, 以MySQL的InnoDB引擎為例,使用以下語句我們必然可以查到相關的記憶體區域show variables like '%buffer%'
如下圖所示join_buffer_size
的大小將會影響我們join
語句的執行效能
面試官: 除此之外呢?
一個大前提
我:任何專案終究要上線,不可避免的要產生資料,資料的規模又不可能太小
面試官: 是這樣的
我:大部分資料庫中的資料最終要儲存到硬碟
上,並且以檔案的形式進行儲存。
以MySQL的InnoDB引擎為例
- InnoDB以
頁
(page)為基本的IO單位,每個頁的大小為16KB - InnoDB會為每個表建立用於儲存資料的
.ibd
檔案
驗證
我:這意味著我們有多少表要連線就需要讀多少個檔案,雖然可以利用索引,但還是免不了頻繁的行動硬碟的磁頭
面試官:也就是說頻繁的移動磁頭會影響效能對吧
我:是的,現在的開源框架不都喜歡說自己通過順序讀寫大大的提升了效能嗎,比如hbase
、kafka
面試官:說的沒錯,那你認為Linux
有對此做出優化嗎?提示,你可以再執行一次free
命令看一下
我:奇怪快取怎麼佔用了1.2G多
面試官: 你有沒有想過
buff/cache
裡面存的是什麼,?- 為什麼
buff/cache
佔了那麼多記憶體,可用記憶體即availlable
還有1.1G
? - 為什麼你可以通過兩條命令來清理
buff/cache
佔用的記憶體,而想要釋放used
只能通過結束程序來實現?
品,你細品
思考了幾分鐘後
我:這麼隨便就釋放了buff/cache
所佔用的記憶體,說明它就不重要, 清除它不會對系統的執行造成影響
面試官: 不完全對
我:難道是?想起來《CSAPP》(深入理解計算機系統)裡面說過一句話
儲存器層次結構的本質是,每一層儲存裝置都是較低一層裝置的快取
翻譯成人話,就是說Linux會把記憶體當作是硬碟的快取記憶體
相關資料 tldp.org/LDP/sag/htm…
面試官:現在知道那道送分題應該怎麼回答了吧
我:我....
Join演算法
面試官:再給你個機會,如果讓你來實現Join演算法你會怎麼做?
我:無索引的話,巢狀迴圈就完事了嗷。有索引的話,則可以利用索引來提升效能.
面試官:說回join_buffer
你認為join_buffer
裡面儲存的是什麼?
我:在掃描過程中,資料庫會選擇一個表把他要返回以及需要進行和其他表進行比較的資料放進join_buffer
面試官:有索引的情況下是怎麼處理的?
我:這個就比較簡單了,直接讀取兩個表的索引樹進行比較就完事了嗷,我這邊介紹一下無索引的處理方式
Nested Loop Join
巢狀迴圈,每次只讀取表中的一行資料,也就是說如果outerTable有10萬行資料, innerTable有100行資料,需要讀取10000000
次(假設這兩個表的檔案沒有被作業系統給快取到記憶體, 我們稱之為冷資料表)
當然現在沒啥資料庫引擎使用這種演算法(太慢了)
Block nested loop
Block
塊,也就是說每次都會取一塊資料到記憶體以減少I/O的開銷
當沒有索引可以使用的時候,MySQL InnoDB 就會使用這種演算法
考慮以下兩個表t_a
和t_b
當無法使用索引執行join操作的時候,InnoDB會自動使用Block nested loop
演算法
總結
上學時,資料庫老師最喜歡考資料庫正規化,直到上班才學會一切以效能為準,能冗餘就冗餘,實在冗餘不了的就join
如果join
真的影響到效能。試著調大你的join_buffer_size
, 或者換固態硬碟。
轉自https://mp.weixin.qq.com/s/dYwuR0ryxRWC97kll4B9Iw