十種NoSQL資料庫以及對比
雖然NoSQL流行語火起來才短短一年的時間,但是不可否認,現在已經開始了第二代運動。儘管早期的堆疊程式碼只能算是一種實驗,然而現在的系統已經更加的成熟、穩定。不過現在也面臨著一個嚴酷的事實:技術越來越成熟——以至於原來很好的NoSQL資料儲存不得不進行重寫,也有少數人認為這就是所謂的2.0版本。這裡列出一些比較知名的工具,可以為大資料建立快速、可擴充套件的儲存庫。
1. Casssandra
Cassandra最初由Facebook開發,後來成了Apache開源專案,它是一個網路社交雲端計算方面理想的資料庫。它集成了其他的流行工具如Solr,現在已經成為一個完全成熟的大型資料儲存工具。Cassandra是一個混合型的非關係的資料庫,類似於Google的BigTable。其主要功能比Dynomite(分散式的Key-Value儲存系統)更豐富,但支援度卻不如文件儲存MongoDB。Cassandra的主要特點就是它不是一個數據庫,而是由一堆資料庫節點共同構成的一個分散式網路服務,對Cassandra的一個寫操作,會被複制到其他節點上去,而對Cassandra的讀操作,也會被路由到某個節點上面去讀取。在最近的一次測試中,
2. Lucene/Solr
Lucene是Apache軟體基金會4 jakarta專案組的一個子專案,這是一個開放原始碼的全文檢索引擎工具包,就是說它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構。不過大多數人並不認同Lucene是一個數據庫,因為大多數人只是用它來檢索大量的文字塊,不過它的確採用了與其他NoSQL資料儲存相似的模型。如果說查詢並不是僅僅侷限於精確的匹配,而是尋找出那些出現在塊中的字或者欄位的話,毫無疑問,Lucene/Solr是最好的查詢方式。
3. Riak
Riak是由技術公司basho開發的一個類似Dynamo的分散式Key-Value系統。其以分散式,水平擴充套件性,高容錯性等特點著稱。從事Riak工作最有趣的部分是可以使用JavaScript或者Erlang來做Map/Reduce查詢,它們會查詢每個節點,收集結果,而且可以重複,如果需要使用的結果進行重新進行搜尋的話。該系統還為類似於Solr的搜尋提供全文索引,同時還提供一個控制面板,可以檢視叢集的資訊。
4. CouchDB
CouchDB是用Erlang開發的面向文件的資料庫系統,不過它不是一個傳統的關係資料庫,而是面向文件的資料庫,其資料儲存方式有點類似lucene的index檔案格式,CouchDB最大的意義在於它是一個面向web應用的新一代儲存系統。作為一個分散式的資料庫,CouchDB可以把儲存系統分佈到n臺物理的節點上面,並且很好的協調和同步節點之間的資料讀寫一致性。CouchDB支援REST API,可以讓使用者使用JavaScript來操作CouchDB資料庫,也可以用JavaScript編寫查詢語句,可以想像一下,用AJAX技術結合CouchDB開發出來的CMS系統會是多麼的簡單和方便。
CouchDB還有一個更加商業化的“表親”——Couchbase,不過它提供快取功能,更好的分片,增量查詢,更好的索引和一些其他的功能。其實Couchbase與CouchDB也是緊密相關的,Couchbase產品包含了CouchDB的一個副本。
5. Neo4J
大多數的NoSQL資料庫只是儲存鍵和值的一個靈活的捆綁。不過Neo4J的儲存的是物件之間的關係,或者說這種結構就是數學中的“圖”。Neo4J是一個面向網路(“圖”)的資料庫,也就是說,它是一個嵌入式的、基於磁碟的、具備完全的事務特性的Java持久化引擎,但是它將結構化資料儲存在網路上而不是表中,當然也可以把Neo4J看作是一個高效能的圖引擎,該引擎具有成熟和健壯的資料庫的所有特性。該工具包括很多有關搜尋和分析的關係的演算法,它能夠幫助尋找誰是我的朋友,或者尋找朋友的朋友。這些“圖的遍歷”演算法,可以節省很多指標查詢的麻煩。
6. Oracle的NoSQL
也許是NoSQL運動太紅火的原因,Oracle決定開發一款產品,將鍵/值對拆分在整個節點集上,這樣的優勢在於提供了一個靈活的事務保護措施,進而可以確保從資料在節點上等待儲存開始到通過網路被成功備份結束,都盡在掌握之中。
Oracle的NoSQL Database,是在10月4號的甲骨文全球大全上釋出的Big Data Appliance的其中一個元件,Big Data Appliance是一個集成了Hadoop、NoSQL Database、Oracle資料庫Hadoop介面卡、Oracle資料庫Hadoop裝載器及R語言的系統。
7. MongoDB
MongoDB是一個基於分散式檔案儲存的資料庫,介於關係資料庫和非關係資料庫之間,是非關係資料庫當中功能最豐富,最像關係資料庫的。MongoDB最大的特點是他支援的查詢語言非常強大,其語法有點類似於面向物件的查詢語言,幾乎可以實現類似關係資料庫單表查詢的絕大部分功能,而且還支援對資料建立索引。MongoDB支援RUBY,PYTHON,JAVA,C++,PHP,C#等多種語言。
MongoDB是高效能開源文件資料庫,也是目前最受關注的NoSQL技術之一,以敏捷、可擴充套件和對企業應用友好(支援事務,一致性和資料完整性保證,有大企業應用案例)而著稱。有人甚至認為LAMP中的M應該用MongoDB取代MySQL,其火熱程度可見一斑。使用MongoDB的公司包括Foursquare, Craiglist, 迪士尼,SAP,Intuit,EA等,國內淘寶、大眾點評、視覺中國等公司有應用。(最新版MongoDB 2.2下載)
8. Hadoop的HBase
HBase(Hadoop Database),是一個高可靠性、高效能、面向列、可伸縮的分散式儲存系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化儲存叢集。HBase是Google Bigtable的開源實現,類似Google Bigtable利用GFS作為其檔案儲存系統,HBase利用Hadoop HDFS作為其檔案儲存系統;Google執行MapReduce來處理Bigtable中的海量資料,HBase同樣利用Hadoop MapReduce來處理HBase中的海量資料。
雖然大多數人都認為Hadoop及其所有的工具都是作為管理大規模叢集的一種機制,其實不然,Hadoop也包括資料庫,在HBase中也是通過節點來傳播資料。Hadoop的Map /Reduce的架構是非常適合於複雜的計算任務或查詢工作。領土在不斷的擴張,新的資料庫像Accumulo就是Hadoop平臺的一個延伸。(Apache Accumulo是一個可靠的、可伸縮的、高效能的排序分散式的Key-Value儲存解決方案,基於單元訪問控制以及可定製的伺服器端處理。使用Google BigTable設計思路,基於Apache Hadoop、Zookeeper和Thrift構建)
9. BigTable/ Accumulo/ Hypertable
BigTable是非關係的資料庫,是一個稀疏的、分散式的、持久化儲存的多維度排序Map。Bigtable的設計目的是可靠的處理PB級別的資料,並且能夠部署到上千臺機器上。Bigtable已經實現了下面的幾個目標:適用性廣泛、可擴充套件、高效能和高可用性。Bigtable已經在超過60個Google的產品和專案上得到了應用,包括Google Analytics、GoogleFinance、Orkut、Personalized Search、Writely和GoogleEarth。
谷歌的BigTable開啟了NoSQL的熱潮,現在很多公司都模仿谷歌的架構搭建了自己的平臺。谷歌的AppEngine使用者可以把鍵/值對儲存在資料庫中,而Hadoop的使用者可以把它們放在Accumulo上,其他的可以使用Hypertable。所有的這些基本上都屬於鍵/值儲存,只不過添加了一些額外的功能,增加了搜尋的速度而已。
10. DynamoDB
DynamoDB是亞馬遜的key-value模式的儲存平臺,可用性和擴充套件性都很好,效能也不錯:讀寫訪問中99.9%的響應時間都在300ms內。DynamoDB的NoSQL解決方案,也是使用鍵/值對儲存的模式,平且通過伺服器把所有的資料儲存在SSD上的三個不同的區域。如果有更高的傳輸需求,DynamoDB也可以在後臺新增更多的伺服器。
1. CouchDB
- 所用語言: Erlang
- 特點:DB一致性,易於使用
- 使用許可: Apache
- 協議: HTTP/REST
- 雙向資料複製,
- 持續進行或臨時處理,
- 處理時帶衝突檢查,
- 因此,採用的是master-master複製(見編注2)
- MVCC – 寫操作不阻塞讀操作
- 可儲存檔案之前的版本
- Crash-only(可靠的)設計
- 需要不時地進行資料壓縮
- 檢視:嵌入式 對映/減少
- 格式化檢視:列表顯示
- 支援進行伺服器端文件驗證
- 支援認證
- 根據變化實時更新
- 支援附件處理
- 因此, CouchApps(獨立的 js應用程式)
- 需要 jQuery程式庫
最佳應用場景:適用於資料變化較少,執行預定義查詢,進行資料統計的應用程式。適用於需要提供資料版本支援的應用程式。
例如:CRM、CMS系統。 master-master複製對於多站點部署是非常有用的。
(編注2:master-master複製:是一種資料庫同步方法,允許資料在一組計算機之間共享資料,並且可以通過小組中任意成員在組內進行資料更新。)
2. Redis
- 所用語言:C/C++
- 特點:執行異常快
- 使用許可: BSD
- 協議:類 Telnet
- 有硬碟儲存支援的記憶體資料庫,
- 但自2.0版本以後可以將資料交換到硬碟(注意, 2.4以後版本不支援該特性!)
- Master-slave複製(見編注3)
- 雖然採用簡單資料或以鍵值索引的雜湊表,但也支援複雜操作,例如 ZREVRANGEBYSCORE。
- INCR & co (適合計算極限值或統計資料)
- 支援 sets(同時也支援 union/diff/inter)
- 支援列表(同時也支援佇列;阻塞式 pop操作)
- 支援雜湊表(帶有多個域的物件)
- 支援排序 sets(高得分表,適用於範圍查詢)
- Redis支援事務
- 支援將資料設定成過期資料(類似快速緩衝區設計)
- Pub/Sub允許使用者實現訊息機制
最佳應用場景:適用於資料變化快且資料庫大小可遇見(適合記憶體容量)的應用程式。
例如:股票價格、資料分析、實時資料蒐集、實時通訊。
(編注3:Master-slave複製:如果同一時刻只有一臺伺服器處理所有的複製請求,這被稱為 Master-slave複製,通常應用在需要提供高可用性的伺服器叢集。)
3. MongoDB
- 所用語言:C++
- 特點:保留了SQL一些友好的特性(查詢,索引)。
- 使用許可: AGPL(發起者: Apache)
- 協議: Custom, binary( BSON)
- Master/slave複製(支援自動錯誤恢復,使用 sets 複製)
- 內建分片機制
- 支援 javascript表示式查詢
- 可在伺服器端執行任意的 javascript函式
- update-in-place支援比CouchDB更好
- 在資料儲存時採用記憶體到檔案對映
- 對效能的關注超過對功能的要求
- 建議最好開啟日誌功能(引數 –journal)
- 在32位作業系統上,資料庫大小限制在約2.5Gb
- 空資料庫大約佔 192Mb
- 採用 GridFS儲存大資料或元資料(不是真正的檔案系統)
最佳應用場景:適用於需要動態查詢支援;需要使用索引而不是 map/reduce功能;需要對大資料庫有效能要求;需要使用 CouchDB但因為資料改變太頻繁而佔滿記憶體的應用程式。
例如:你本打算採用 MySQL或 PostgreSQL,但因為它們本身自帶的預定義欄讓你望而卻步。
4. Riak
- 所用語言:Erlang和C,以及一些Javascript
- 特點:具備容錯能力
- 使用許可: Apache
- 協議: HTTP/REST或者 custom binary
- 可調節的分發及複製(N, R, W)
- 用 JavaScript or Erlang在操作前或操作後進行驗證和安全支援。
- 使用JavaScript或Erlang進行 Map/reduce
- 連線及連線遍歷:可作為圖形資料庫使用
- 索引:輸入元資料進行搜尋(1.0版本即將支援)
- 大資料物件支援( Luwak)
- 提供“開源”和“企業”兩個版本
- 全文字搜尋,索引,通過 Riak搜尋伺服器查詢( beta版)
- 支援Masterless多站點複製及商業許可的 SNMP監控
最佳應用場景:適用於想使用類似 Cassandra(類似Dynamo)資料庫但無法處理 bloat及複雜性的情況。適用於你打算做多站點複製,但又需要對單個站點的擴充套件性,可用性及出錯處理有要求的情況。
例如:銷售資料蒐集,工廠控制系統;對宕機時間有嚴格要求;可以作為易於更新的 web伺服器使用。
5. Membase
- 所用語言: Erlang和C
- 特點:相容 Memcache,但同時兼具持久化和支援叢集
- 使用許可: Apache 2.0
- 協議:分散式快取及擴充套件
- 非常快速(200k+/秒),通過鍵值索引資料
- 可持久化儲存到硬碟
- 所有節點都是唯一的( master-master複製)
- 在記憶體中同樣支援類似分散式快取的快取單元
- 寫資料時通過去除重複資料來減少 IO
- 提供非常好的叢集管理 web介面
- 更新軟體時軟無需停止資料庫服務
- 支援連線池和多路複用的連線代理
最佳應用場景:適用於需要低延遲資料訪問,高併發支援以及高可用性的應用程式
例如:低延遲資料訪問比如以廣告為目標的應用,高併發的 web 應用比如網路遊戲(例如 Zynga)
6. Neo4j
- 所用語言: Java
- 特點:基於關係的圖形資料庫
- 使用許可: GPL,其中一些特性使用 AGPL/商業許可
- 協議: HTTP/REST(或嵌入在 Java中)
- 可獨立使用或嵌入到 Java應用程式
- 圖形的節點和邊都可以帶有元資料
- 很好的自帶web管理功能
- 使用多種演算法支援路徑搜尋
- 使用鍵值和關係進行索引
- 為讀操作進行優化
- 支援事務(用 Java api)
- 使用 Gremlin圖形遍歷語言
- 支援 Groovy指令碼
- 支援線上備份,高階監控及高可靠性支援使用 AGPL/商業許可
最佳應用場景:適用於圖形一類資料。這是 Neo4j與其他nosql資料庫的最顯著區別
例如:社會關係,公共交通網路,地圖及網路拓譜
7. Cassandra
- 所用語言: Java
- 特點:對大型表格和 Dynamo支援得最好
- 使用許可: Apache
- 協議: Custom, binary (節約型)
- 可調節的分發及複製(N, R, W)
- 支援以某個範圍的鍵值通過列查詢
- 類似大表格的功能:列,某個特性的列集合
- 寫操作比讀操作更快
- 基於 Apache分散式平臺儘可能地 Map/reduce
- 我承認對 Cassandra有偏見,一部分是因為它本身的臃腫和複雜性,也因為 Java的問題(配置,出現異常,等等)
最佳應用場景:當使用寫操作多過讀操作(記錄日誌)如果每個系統組建都必須用 Java編寫(沒有人因為選用 Apache的軟體被解僱)
例如:銀行業,金融業(雖然對於金融交易不是必須的,但這些產業對資料庫的要求會比它們更大)寫比讀更快,所以一個自然的特性就是實時資料分析
8. HBase
(配合 ghshephard使用)
- 所用語言: Java
- 特點:支援數十億行X上百萬列
- 使用許可: Apache
- 協議:HTTP/REST (支援Thrift,見編注4)
- 在 BigTable之後建模
- 採用分散式架構 Map/reduce
- 對實時查詢進行優化
- 高效能 Thrift閘道器
- 通過在server端掃描及過濾實現對查詢操作預判
- 支援 XML, Protobuf, 和binary的HTTP
- Cascading, hive, and pig source and sink modules
- 基於 Jruby( JIRB)的shell
- 對配置改變和較小的升級都會重新回滾
- 不會出現單點故障
- 堪比MySQL的隨機訪問效能
最佳應用場景:適用於偏好BigTable:)並且需要對大資料進行隨機、實時訪問的場合。
例如: Facebook訊息資料庫(更多通用的用例即將出現)
編注4:Thrift 是一種介面定義語言,為多種其他語言提供定義和建立服務,由Facebook開發並開源。
當然,所有的系統都不只具有上面列出的這些特性。這裡我僅僅根據自己的觀點列出一些我認為的重要特性。與此同時,技術進步是飛速的,所以上述的內容肯定需要不斷更新。我會盡我所能地更新這個列表。