千萬別用MongoDB?真的嗎?!
某人發了一篇Don’t use MongoDB的血淚控訴,我把原文翻譯如下,你可以看看。不過,我想我們還要去看看10gen CTO的對此事的回復,我們還要去在Reddit上看看大家的說法,10gen CTO的對此事的回復後面也有一堆人在討論這個事,還有一些程序員開始去讀MongoDB的源碼了,呵呵。看樣子,說MongoDB的這些事並不是真的。
10gen CTO 對此事的並不完全知道,其在回復,對些文中的每一條都做了回復。我把其回復的大體意思也放在原文中。不過,很有意思的是那些程序員的討論。建議大家看看。
正文
因為各種政治原因,我這段時間沒有說什麽,但是現在我覺得因為要對社會負責,所以我要阻止大家不要把你們的業務放在MongoDB上。
我的團隊在一個有巨大用戶量(一個有千萬用戶級的大型的公司)系統上使用的MongoDB,這個系統上讓MongoDB有非常大的負載。早期,我們以為使用MongoDB會像10gen公司(MongoDB背後的公司)宣揚其在長期性能擴展有很多好處。但是,我們錯了,而這個rant(長篇抱怨)就是為了讓你不要相信那些所謂的成功經驗而和我們一樣犯了大錯。如果有人能避免你上當,那麽就得我寫這麽多。希望能警醒更多的人。
註意,對於和10gen打交道的經歷來說,他們給予了我們充分了熱情和幫助,而且非常地好。但是這並不能成為我不告訴大家他們的產品失敗的理由。
為什麽這麽說?
數據庫應該是正確的,或是僅可能的正確,因為數據庫的錯誤會比其它使用更大。不僅僅是因為其對運行,性能,開銷,和其價值影響巨大,還因為其連帶的東西。匆忙去去移植TB級的數據相比起去修改代碼中的一個邏輯錯誤來說是一個很巨大的工作。而在系統出問題後需要恢復TB級的數據,而你即被限制住了,你會有一種絕望的感覺。
數據庫是一個很復雜的系統,對於開發者來說就像一個黑盒一樣。你需要對你所采用的數據庫持絕對信任的態度,信任它會做正確的事,並盡會保持 一致笥和可用性。
為什麽MongoDB會流行?
說句公道話,我們必需承認MongoDB是流行的,因為下面這些原因讓其流行變得很合理:
- 它非常容易地運行
- 非常自由的Schema模型,而且可以很容易地和JSON類的數據結果映射起來,這對於程序員來於有很大的感染力(它完全符合程序員的邏輯思維),而且,程序員總是在項目可以做技術選型的人。
- 成熟和分健壯,有記錄,被真實的Use Case測試過,等等。對於那些喜歡選擇成熟的技術的系統管理員和運營專業來說,這是一個很典型的選擇。
- 它單系統,低讀並發的性能測試非常令人驚訝,而對於那些沒有經驗的評估者來說,這基本上來說是最重要的。
現在,你可能正在開發一個隨便玩一玩的網站,或是一個原型,或是那種只考慮開發速度不考慮別的的項目。老實說,對於這種項止,無所謂你用什麽樣的技術,只要搞定工作就行了。
但是,如果你想要在MongoDB上搞一個大規模的系統,在上面運行真實的業務,那麽,請不要用MongoDB。
為什麽不?
1)MongoDB為了贏得Benchmark測試而默認使用了不安全的寫方式
如果你不調用getLastError(),MongoDB就不會在確認數據庫寫操作完成就返回了,這會引入至少兩種問題:
- 在並發的環境下(連接池,等),在一個讀操作“完成”後的連續地讀操作會出錯,MongoDB沒有“柵欄條件鎖”來知道什麽時候完成寫。
- 未知個數的保存操作會被丟棄,因為保存操作的隊列會在不同的地方。比如TCP緩存等。當你和數據庫連接因為一些意味情況斷開的時候,這些東西就被丟棄了。
10gen CTO 回復: 這和Benchmark沒有任何關系,並說這個就是API的設計,其交給用戶自己去選擇,因為寫的方式也有很多種。
2)MongoDB會以令人震驚的方式丟失數據
下面是一個我們所經歷過的它丟數據的列表:
- 數據就是丟了,原因未知
- 從損壞的數據庫中恢復數據不成功,如事務日誌。
- 主從結點間的數據復制有缺口,導致從結點丟失主結點有的數據。是的,沒有CheckSum,並且是的,你還會看到數據復制過去了。
- 數據復制有時會停了,沒有錯誤。你可以監控你的復制狀態。
10gen CTO 逐一回復:1)從來沒有一個數據丟失的BUG我們沒有馬上fix的事情。你能告訴我你報給我們的問題號嗎?我們至少要明的是怎麽一回事。如果是我們的問題,我們會馬上fix的。2)從損壞了的數據庫中不能完全恢復數據 ,這不挺正常的嗎?但是如果有主從服務器互為備份應該會好一些。3)請告訴我你的問題號,我們從來沒有接到過這樣的錯誤報告。如果有,的確很嚴重。4)如果是說錯誤條件發生的時候沒有通知,這有可能。另外,你可以監控數據復制的寫操作,你可以使用w=2 為getLastError的參數。
3)MongoDB 需要全局寫鎖來請求寫操作
在寫操作頻繁的時候,這等同於殺了你。如果你運行一個blog,你也許不會關心這個事,因為你的讀寫操作不高。
10gen CTO 回復:讀寫鎖永遠都是問題,但是2.0會好很多,2.2會解決得更好一些。
4)MongoDB 的Sharding(分區) 在高負載下會停止工作
在高負載下加一個shard是一場惡夢。Mongo要麽會移動其數據塊太快而導致DOS攻擊產生很多流量占用帶寬,要麽就完全地拒絕更多的數據塊。這會使一個高流量的網站承受著沈重地寫操作。
10gen CTO 回復:如果系統已經超過了其負載,那麽移動數據當然會變得很難。我每一次的演講都說得很清楚,不要在系統性能不行的時候才去加shard,這不行的。
5)Mongo 不可靠
Mongod/配置服務器/mongos的架構確定合理且聰明。不幸的是,mongos完全就是垃圾。在有負載的情況下,它時不時就都會崩潰,有時幾個小時,有時幾天。進程重啟監控有時也不管用,因為他會拋出一些斷言會偽造出一個關鍵線程,其導致進程還在運行。Double Fail。
最壞的是,唯一可行的方式是在一堆mongos實例前放一個HaProxy(一種負載均衡器),運行一個作業其緩慢地輪著訪問這些mongos實例,並定期kill掉他們,以變可以重新啟動新的實例。我沒有在開玩笑。
10gen CTO 回復:不可能有這種事,你能不能告訴我更多的細節?
6)MongoDB有一次甚至刪除了整個數據庫
MongoDB 1.6,在數據同步配置中,有時會配置了一個錯誤的結點(經常是一個空結點)是一個最新的數據結點。於是其它同步數據的結果上的數據就這樣被幹掉了(我說的是700GB的好數據),因為其把這個空結點的數據同步回有數據的結點上。數據庫永遠永遠都不應該幹這個。如果出現這種問題,數據庫應該拋出一個錯誤而讓DBA來選擇合理的操作,或是強制使用正確的配置。而不應該刪除所有的數據(那天太糟糕了)。
他們在1.8中修復了這個問題,偶滴神啊。
10gen CTO 回復:找不到這樣的事,也找不到相應提交的代碼,你能多給點信息嗎?
7)發布了一些不應該發布東西
眾所周知,在穩定版裏能找到一些尷尬的bug其會導致數據問題——而我們總是在出了問題後他們才告訴我們這些問題,這是因為我們購買了10gen他們那超級詐騙的白金技術支持。他們回應是,發給我們一個hot patch,他們內部叫RC的玩意,然後讓這個hot patch運行在我們的數據上。
10gen CTO 回復:關於白金的技術支持,我們所接手的所有問題都會公開,fix也會公開。沒有特定的情景,這種事很難討論。我們會根據不同的情況作出不同的反應。我們希望我們的用戶的問題能盡快得到解決。
8)復制器在繁忙的服務器上黯然失色
復制器經常性的向Master發起DOS攻擊,或是復制非常慢,花了巨長無比的時間,而oplog幾乎被耗盡(就算是50GB的oplog)。
我們有一個繁忙的,大的數據集我們不會復制他因為它是動態的。那是令人痛苦的一個月,或是我們需要在選擇不同的數據庫系統前交叉雙指(註:好運的手勢)
10gen CTO 回復:這看起來像上服務器負載過重了。我前面提到過了。
但是最糟糕的問題是:
你可能會說,我這些問題都是過去式了;他們修復了所有這些問題或是他們會在下一版本中修復這些問題;X問題可以用Y實踐來減輕。等等,等等。
不幸的是,你說這些東西一點用也沒有。
真正的問題是,這麽多的問題都是首要的問題。 數據庫開發者要能hold住比一般程序員更高的標準。也就是說,你的優先級應該像下面這個樣子:
- 別搞丟數據,對數據要有完全的把握
- 通過實踐保證可用性
- 多結點的性能擴展性
- 最小延遲應該保持在99%和95%之間
- 每個資源的每秒請求數
10gen的順序好像是 #5 為每一,其它項隨便,#1 並不在前3位。
10gen CTO 回復:這明顯不是真的。看一看我們提交的代碼,看一看我們的fix。 我們從來不會在release版中隱藏一個bug。如果我們非常在乎性能的benchmark的話,我們會花精力解決那些鎖的問題,這樣一來,多線程並發會更快一些。
MongoDB是一個新生的東西,還有很多東西需要打磨。如果你想來認識一下我們,我們歡迎你來認識一下我們。
這些失敗,還有那所暗示的公司的優先級,指出了一個最基本的企業文化的問題,其會讓問題出現在任一發布版中:因為他們缺乏尊守必要的數據庫系統的設計律條。
請慎重考慮這些警告。
千萬別用MongoDB?真的嗎?!