為什麼我們要儘量避免FileSort(檔案排序)

阿新 • • 發佈：2020-06-24

故事

現在，假設閱讀此文的你穿越回了小學二年級的時光，此時的你正在不斷的追求著隔壁班的班長小紅，恨不得把家裡所有東西都送給TA。那麼問題來了，如果你要把家裡東西都搬光送給小紅，你有幾種辦法？以下是我想到

一件一件的搬，如果搬不動那就拆分（不排除你被你父母揍一頓的可能性）
試圖通過吃藥讓自己變成大力士

上述例子看似滑稽，但其實這是一直以來人類解決大規模數量問題的解決方案，即要麼提升自身的能力以應付大規模的數量，要麼進行拆分，分而治之。

對應到IT行業，由於傳統小型機處理能力有限於是便有了大型機。如果不用大型機那咋辦嗎？只好拆分服務，於是便有了微服務。

經典面試題

面試官：假設你只有100M的記憶體可用，現在有一個大小為1G的檔案，裡面存放著整數，每個整數用4個位元組來儲存，要你對這個這個檔案中資料進行排序，你有什麼解決方案?

我：打電話找行政的妹子跟她要一條8G的DDR4記憶體條,為了表示感謝順便約她去吃飯,說不定還能順利脫單。

面試官：emmm…..,回去等通知吧

解決方案

我：要解決這個問題，首先我們需要分為兩種情況:

資料不重複 如果資料不重複我們可以使用點陣圖來標記相應的資料，在需要輸出結果的時候遍歷點陣圖即可（此方案較為簡單，不在本文的討論範圍內)
資料重複 由於只有100M的記憶體可用，完全利用這100M記憶體的情況下意味著我們一次可以對26214400個整數(100 * 1024 * 1024 / 4 ) 進行排序,這意味著我們要分次讀取檔案並對讀取的內容進行排序，並將每一次排序的結果儲存到檔案系統中,之後再對這些檔案進行合併。

面試官：可以用畫圖表示一下嗎？

我：過程如下圖所示

面試官：可以，要不你現場寫一下程式碼吧

解決方案的實現

解決方案的實現總的來說有以下幾步

根據緩衝區的大小讀入相應的資料量，並把他們轉為整數陣列，進行排序，並寫入檔案，重複這一步直到原始資料檔案中沒有資料可讀。
合併這些已排序的檔案直到只剩一個檔案

將問題拆分開來看的話，我們需要解決以下子問題

由於我們採用4個位元組的資料來儲存整數，因此我們需要解決整數按位元組存取的問題

你可以考慮一下為什麼我們要用四個位元組來存取整數?而不是將其轉為字串

合併已排序的檔案的演演算法

方案一、預讀取一部分的資料寫入快取中，然後進行歸併排序(拆分之後的檔案中的資料都是有序的)，當資料用完時再去檔案中讀取，重複此步驟直到沒有資料可讀

方案二、每次只從兩個檔案中讀取一個整數，進行比較，然後將較大/較小(取決於你要增序還是降序)的資料寫入檔案中

方案一,相對來說比較簡單並且速度比較快留給大家實現。

對於方案二，由於最近開發中有涉及狀態機，因此對於方案二我採用了狀態機的設計模式來實現。

該狀態機如下所示

外部排序的實現

給大夥提供個參考，我實現的方案還有進一步優化的空間?

測試

為了有一個直觀的印象，我們對一個16MB的檔案進行排序，緩衝區設定為512kb.

以下為測試結果

檔案分割階段,可以看出檔案分割的時候所用時間都是差不多的
合併階段，可以看出合併已排序的檔案所用的耗時是不斷遞增的因為併合並的檔案體積在不斷的遞增

如果我們直接將緩衝區設定為16MB呢？以下為測試結果,連合並階段都不用了。

面試官: 很好，那你能說出應用場景嗎？

我：利用檔案(file)進行排序(sort)工作 = filesort,好像在哪裡見過…

**面試官**: 提示你一個單詞`explain`

FileSort

我：想起來了，假設我們有一張表

CREATE TABLE `users` ( `id` int(11) NOT NULL, `account` varchar(45) COLLATE utf8mb4_bin DEFAULT `nickname` `password` KEY (`id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin 複製程式碼

如果我們需要根據某一個欄位繼續排序並且沒有新增索引的話，那麼使用`explain`對該SQL進行查詢的話就會在Extra中看到`filesort`

如下圖所示

這意味著，MySQL無法根據索引對資料進行排序(如果有索引的話直接取就好了，不需要排序操作)。

只好對要排序欄位的進行排序了，但是生產環境中資料量可能會非常大，如果全部載入到記憶體中，必然會引起記憶體不足進而導致資料庫崩潰，因此必須劃出一塊專門的記憶體區域以供排序，而這塊記憶體區域很可能裝不下這巨大的資料量，必然要藉助外部檔案系統進行排序，這就是`filesort`的由來

**面試官**：很好，那你知道怎麼看這塊記憶體的大小嗎？

我：緩衝區 = `buffer`,根據mysql的一貫傳統,以下語句應該可以查到

`show variables like '%buffer%' 複製程式碼`

(圖中藍色標註的區域,即`sort_buffer_size`)

**面試官**：很好，那你知道怎麼優化嗎？

我: 加索引唄，還能咋樣，要不叫運維給伺服器再加個記憶體條？或者把牙膏廠(Intel)的CPU換成農廠的CPU（AMD!YES)

**面試官**：只要你喜歡AMD，我們就是異父異母的親兄弟。哦，不對我是想問該怎麼加索引

我：我們知道索引是有順序的，如果索引上資訊已經滿足了我們的需求，那麼就不需要使用filsort了。

比如上文中所提到的users表
我們建立了一個index

`alter table users add index(nickname, account) 複製程式碼`

考慮以下語句是否需要filesort

`select nickname,account from order by nickname 複製程式碼`

`select * by account 複製程式碼`

答案是

第一條語句不需要filesort，因為索引中已經包含了我們所需要的資訊

第二條語句可以直接使用索引(索引有序儲存)，在讀取到索引對應的主鍵值後取相應的資料並直接返回給客戶端即可，不需要使用到`sort_buffer`

第三條語句需要`filesort`,但由於account和nickname組合成了索引,每一個nickname對應的account都是有序，因此不同的nickname對應的account可以用來做歸併排序(如上文所提到的合併階段)

總結

今天的總結就三張圖

附錄

**Q1: 為什麼用4個位元組來存整數**

節省空間,用字串來存的話，你整數多長就得多少個位元組

**Q2: 怎麼使用本文提供得外部排序DEMO**

原始碼中的三個檔案分別是

列印檔案中的資料

對指定檔案進行排序

生成隨機數檔案

**Q3: 為什麼要使用狀態機來實現歸併排序**

不得不說，用狀態機來梳理邏輯是比較清晰的，建議你也嘗試一下。但在本例中如果你使用緩衝區來儲存整數陣列的話效能會快很多。

參考資料

《高效能MySQL(第三版)》

索引相關的部分

《MySQL王者晉級之路》

3.4節

為什麼我們要儘量避免FileSort(檔案排序)

故事現在，假設閱讀此文的你穿越回了小學二年級的時光，此時的你正在不斷的追求著隔壁班的班長小紅，恨不得把家裡所有東西都送給TA。那麼問題來了，如果你要把家裡東西都搬光送給小紅，你有幾種辦法？以下是我想到

面試官：為什麼要儘量避免使用 IN 和 NOT IN？大部分人都會答錯！

WHY？ IN 和 NOT IN 是比較常用的關鍵字，為什麼要儘量避免呢？ 1、效率低專案中遇到這麼個情況：

[解鎖新姿勢] 回想起被 `if-else` 支配的恐懼，我們要打倒 if - else

前言 [解鎖新姿勢] 兄dei，你程式碼需要優化了在之前文章說到，簡單 if-else，可以使用衛語句進行優化。但是在實際開發中，往往不是簡單 if-else 結構，我們通常會不經意間寫下如下程式碼：

MySQL問答系列之如何避免ibdata1檔案大小暴漲

0、導讀 ibdata1檔案是什麼？ ibdata1是一個用來構建innodb系統表空間的檔案，這個檔案包含了innodb表的元資料、撤銷記錄、修改buffer和雙寫buffer。如果file-per-table選項開啟的話，該檔案則不一定包含所有表的資

Win10不小心打亂桌面檔案排序怎麼恢復到以前排序

一個整潔的win10系統桌面是很重要，追求個性化的小夥伴會根據自己喜好來排桌面的檔案圖示排序，今天看到有小夥反饋說自己給桌面的圖片排好序以後，結果一不小心打亂了，有什麼辦法能恢復到以前的排序呢，方法當然有的

文章要儲存為TXT檔案，其中的圖片要怎麼辦？Python幫你解決

前言用 python 爬取你喜歡的 CSDN 的原創文章，儲存為TXT檔案，不僅檢視不方便，而且還無法儲存文章中的程式碼和圖片。

織夢站內選擇資料夾和圖片檔案排序後臺模板管理按名稱排序

織夢站內選擇圖片排序是直接read()讀取直接輸出，如果我們同一時間上傳了多個圖片，在沒有經過排序的情況下，我們去選擇圖片很難快速分辨哪個是剛剛上傳的，解決方法是讀取該目錄的檔案列表,用\"檔名、修改時間\"做鍵

python檔案排序的方法總結

在python環境中提供兩種排序方案：用庫函式sorted()對字串排序，它的物件是字元；用函式sort()對數字排序，它的物件是數字，如果讀取檔案的話，需要進行處理（把檔案字尾名‘遮蔽\'）。

大檔案排序優化實踐

　　在很多應用場景中，我們都會面臨著排序需求，可以說是見怪不怪。我們也看過許多的排序演算法：從最簡單的氣泡排序、選擇排序，到稍微好點的插入排序、希爾排序，再到有點理論的堆排序、快速排序，再到高階的歸併

為什麼我們要從MySQL遷移到TiDB？

當一張百億資料量的表放在你面前，你將面臨著什麼？加列？哭吧，怎麼也得等個幾天甚至幾周。加索引？哭吧，不論你用 pt-online-schema，還是 gh-ost，你都面臨著拷貝一張臨時表用以儲存臨時資料，磁碟已經 80% 了，

阿雷西博望遠鏡倒塌，我們要在月球上建造阿雷西博二代嗎

北京時間 1 月 27 日訊息，據國外媒體報道，當 60 歲的阿雷西博望遠鏡在 2020 年倒塌時，我們不僅失去了世界上最傑出的射電望遠鏡，我們的射電天文學的未來也遭受了沉重打擊。阿雷西博是有點年代久遠，但它也具有獨特

小米雷軍宣佈造車，何小鵬送上祝福：我們要為勇敢者鼓掌

3 月 31 日上午訊息，小米 30 日正式對外宣佈將成立一家全資子公司負責智慧電動汽車業務。小鵬汽車董事長何小鵬也在微博上給予祝福。

為什麼我們要用BS架構來開發流媒體平臺？

熟悉我們的小夥伴都知道，我們開發的所有流媒體平臺EasyNVR、EasyGBS、EasyCVR、EasyDSS等都是BS架構，至於BS架構和CS架構的區別，我們在之前的博文中也提到過：視訊流媒體伺服器BS架構與CS架構的區別在哪裡？大家有

《英雄聯盟》升級防沉迷措施：希望可以幫助孩子養成好習慣，儘量避免家庭矛盾

8 月 31 日訊息根據國家新聞出版署釋出的《關於進一步嚴格管理切實防止未成年人沉迷網路遊戲的通知》，《英雄聯盟》官方現宣佈見從今日起陸續升級防沉迷措施，升級後的規則如下：

索尼 AI CEO：我們要讓 AI 在 30 年內拿到諾貝爾獎

“到 2050 年，要讓 AI 憑自己的科研成果拿下諾貝爾獎！”索尼電腦科學實驗室執行長北野弘明博士，為了開發匹敵頂尖科學家頭腦的 AI，提出了諾貝爾圖靈挑戰計劃。這是一次人工智慧與自然科學領域的夢幻聯動。人類的力

假如有一個需求，我們要在一個頁面中 ul 標籤裡渲染十萬個 li 標籤

1 // 插入十萬條資料 2 const total = 100000; 3 let ul = document.querySelector(\'ul\'); // 拿到 ul

英國威廉王子給“太空競賽”潑冷水：我們要修復地球，不是尋找替代品

北京時間 10 月 14 日晚間訊息，據報道，太空探索技術公司“藍色起源”昨晚剛剛進行了第二次載人太空飛行，威廉王子（Prince William）今日就給“太空競賽”潑冷水，稱我們要做的是修復地球，而不是尋找其替代品。威

扎克伯格暗抨谷歌蘋果高佣金打壓創新：我們要做低費用生態

10 月 29 日早間訊息，據報道，近期，美國社交網路巨頭 Facebook 面臨了吹哨人豪根的爆料和媒體曝黑幕，遭遇美國國會的更大壓力，此外該公司也正在經歷美國聯邦政府的反壟斷調查。在這樣的背景下，Facebook 創始人扎

在Java學習中要如何避免錯誤

程式設計是職業發展的一個重要領域，一旦你開始學習，最好在你的餘生中都這樣做，這是因為程式設計過於動態和靈活。如果你決心學習Java，這裡有一些建議，以解決你的學習經驗問題。想從事java職業的同學可以參加千鋒

大眾 CEO：特斯拉生產一輛車只要 10 小時，我們要將其視為競爭對手

11 月 8 日訊息，大眾 CEO Herbert Diess 在給他的管理團隊的一份新說明中表示，大眾需要更像特斯拉。electrek 拿到了Herbert Diess 向管理層發表的演講，其中詳細描述了他將特斯拉視為大眾主要競爭對手的原因。Her

為什麼我們要儘量避免FileSort(檔案排序)

故事

經典面試題

解決方案

解決方案的實現

測試

FileSort

總結

附錄

參考資料

相關推薦