Hbase和Oracle的對比
轉自:http://www.cnblogs.com/chay1227/archive/2013/03/17/2964020.html
轉自:http://blog.csdn.net/allen879/article/details/40461227
轉自:http://blog.itpub.net/28912557/viewspace-776770/
由於項目需要,將原來的系統升級需要用到Hbase技術,使用了之後發現,確實很不錯。那麽問題來了,為什麽在這裏要用Hbase,而不是以前的關系型數據庫Oracle,他們各自有什麽特點,應用場景有何不同?帶著問題去學習效果會更好。
首先來看關系型數據庫與NoSQL的對比:
關系型數據庫把所有的數據都通過行和列的二元表現形式表示出來。
關系型數據庫的優勢:
1. 保持數據的一致性(事務處理)
2.由於以標準化為前提,數據更新的開銷很小(相同的字段基本上都只有一處)
3. 可以進行Join等復雜查詢
其中能夠保持數據的一致性是關系型數據庫的最大優勢。
關系型數據庫的不足:
不擅長的處理
1. 大量數據的寫入處理
2. 為有數據更新的表做索引或表結構(schema)變更
3. 字段不固定時應用
4. 對簡單查詢需要快速返回結果的處理
--大量數據的寫入處理
讀寫集中在一個數據庫上讓數據庫不堪重負,大部分網站已使用主從復制技術實現讀寫分離,以提高讀寫性能和讀庫的可擴展性。
所以在進行大量數據操作時,會使用數據庫主從模式。數據的寫入由主數據庫負責,數據的讀入由從數據庫負責,可以比較簡單地通過增加從數據庫來實現規模化,但是數據的寫入卻完全沒有簡單的方法來解決規模化問題。
第一,要想將數據的寫入規模化,可以考慮把主數據庫從一臺增加到兩臺,作為互相關聯復制的二元主數據庫使用,確實這樣可以把每臺主數據庫的負荷減少一半,但是更新處理會發生沖突,可能會造成數據的不一致,為了避免這樣的問題,需要把對每個表的請求分別分配給合適的主數據庫來處理。
第二,可以考慮把數據庫分割開來,分別放在不同的數據庫服務器上,比如將不同的表放在不同的數據庫服務器上,數據庫分割可以減少每臺數據庫服務器上的數據量,以便減少硬盤IO的輸入、輸出處理,實現內存上的高速處理。但是由於分別存儲字不同服務器上的表之間無法進行Join處理,數據庫分割的時候就需要預先考慮這些問題,數據庫分割之後,如果一定要進行Join處理,就必須要在程序中進行關聯,這是非常困難的。
--為有數據更新的表做索引或表結構變更
在使用關系型數據庫時,為了加快查詢速度需要創建索引,為了增加必要的字段就一定要改變表結構,為了進行這些處理,需要對表進行共享鎖定,這期間數據變更、更新、插入、刪除等都是無法進行的。如果需要進行一些耗時操作,例如為數據量比較大的表創建索引或是變更其表結構,就需要特別註意,長時間內數據可能無法進行更新。
--字段不固定時的應用
如果字段不固定,利用關系型數據庫也是比較困難的,有人會說,需要的時候加個字段就可以了,這樣的方法也不是不可以,但在實際運用中每次都進行反復的表結構變更是非常痛苦的。你也可以預先設定大量的預備字段,但這樣的話,時間一長很容易弄不清除字段和數據的對應狀態,即哪個字段保存有哪些數據。
--對簡單查詢需要快速返回結果的處理 (這裏的“簡單”指的是沒有復雜的查詢條件)
這一點稱不上是缺點,但不管怎樣,關系型數據庫並不擅長對簡單的查詢快速返回結果,因為關系型數據庫是使用專門的sql語言進行數據讀取的,它需要對sql與越南進行解析,同時還有對表的鎖定和解鎖等這樣的額外開銷,這裏並不是說關系型數據庫的速度太慢,而只是想告訴大家若希望對簡單查詢進行高速處理,則沒有必要非使用關系型數據庫不可。
---------------------------
NoSQL數據庫
關系型數據庫應用廣泛,能進行事務處理和表連接等復雜查詢。相對地,NoSQL數據庫只應用在特定領域,基本上不進行復雜的處理,但它恰恰彌補了之前所列舉的關系型數據庫的不足之處。
優點:
易於數據的分散
各個數據之間存在關聯是關系型數據庫得名的主要原因,為了進行join處理,關系型數據庫不得不把數據存儲在同一個服務器內,這不利於數據的分散,這也是關系型數據庫並不擅長大數據量的寫入處理的原因。相反NoSQL數據庫原本就不支持Join處理,各個數據都是獨立設計的,很容易把數據分散在多個服務器上,故減少了每個服務器上的數據量,即使要處理大量數據的寫入,也變得更加容易,數據的讀入操作當然也同樣容易。
典型的NoSQL數據庫
臨時性鍵值存儲(memcached、Redis)、永久性鍵值存儲(ROMA、Redis)、面向文檔的數據庫(MongoDB、CouchDB)、面向列的數據庫(Cassandra、HBase)
一、 鍵值存儲
它的數據是以鍵值的形式存儲的,雖然它的速度非常快,但基本上只能通過鍵的完全一致查詢獲取數據,根據數據的保存方式可以分為臨時性、永久性和兩者兼具 三種。
(1)臨時性
所謂臨時性就是數據有可能丟失,memcached把所有數據都保存在內存中,這樣保存和讀取的速度非常快,但是當memcached停止時,數據就不存在了。由於數據保存在內存中,所以無法操作超出內存容量的數據,舊數據會丟失。總結來說:
。在內存中保存數據
。可以進行非常快速的保存和讀取處理
。數據有可能丟失
(2)永久性
所謂永久性就是數據不會丟失,這裏的鍵值存儲是把數據保存在硬盤上,與臨時性比起來,由於必然要發生對硬盤的IO操作,所以性能上還是有差距的,但數據不會丟失是它最大的優勢。總結來說:
。在硬盤上保存數據
。可以進行非常快速的保存和讀取處理(但無法與memcached相比)
。數據不會丟失
(3) 兩者兼備
Redis屬於這種類型。Redis有些特殊,臨時性和永久性兼具。Redis首先把數據保存在內存中,在滿足特定條件(默認是 15分鐘一次以上,5分鐘內10個以上,1分鐘內10000個以上的鍵發生變更)的時候將數據寫入到硬盤中,這樣既確保了內存中數據的處理速度,又可以通過寫入硬盤來保證數據的永久性,這種類型的數據庫特別適合處理數組類型的數據。總結來說:
。同時在內存和硬盤上保存數據
。可以進行非常快速的保存和讀取處理
。保存在硬盤上的數據不會消失(可以恢復)
。適合於處理數組類型的數據
二、面向文檔的數據庫
MongoDB、CouchDB屬於這種類型,它們屬於NoSQL數據庫,但與鍵值存儲相異。
(1)不定義表結構
即使不定義表結構,也可以像定義了表結構一樣使用,還省去了變更表結構的麻煩。
(2)可以使用復雜的查詢條件
跟鍵值存儲不同的是,面向文檔的數據庫可以通過復雜的查詢條件來獲取數據,雖然不具備事務處理和Join這些關系型數據庫所具有的處理能力,但初次以外的其他處理基本上都能實現。
三、 面向列的數據庫
Cassandra、HBae、HyperTable屬於這種類型,由於近年來數據量出現爆發性增長,這種類型的NoSQL數據庫尤其引入註目。
普通的關系型數據庫都是以行為單位來存儲數據的,擅長以行為單位的讀入處理,比如特定條件數據的獲取。因此,關系型數據庫也被成為面向行的數據庫。相反,面向列的數據庫是以列為單位來存儲數據的,擅長以列為單位讀入數據。
面向列的數據庫具有搞擴展性,即使數據增加也不會降低相應的處理速度(特別是寫入速度),所以它主要應用於需要處理大量數據的情況。另外,把它作為批處理程序的存儲器來對大量數據進行更新也是非常有用的。但由於面向列的數據庫跟現行數據庫存儲的思維方式有很大不同,故應用起來十分困難。
總結:關系型數據庫與NoSQL數據庫並非對立而是互補的關系,即通常情況下使用關系型數據庫,在適合使用NoSQL的時候使用NoSQL數據庫,讓NoSQL數據庫對關系型數據庫的不足進行彌補。
Hbase與Oracle比較(列式數據庫與行式數據庫)
1 主要區別
1.1、Hbase適合大量插入同時又有讀的情況
1.2、 Hbase的瓶頸是硬盤傳輸速度,Oracle的瓶頸是硬盤尋道時間。
Hbase本質上只有一種操作,就是插入,其更新操作是插入一個帶有新的時間戳的行,而刪除是插入一個帶有插入標記的行。其主要操作是收集內存中一批數據,然後批量的寫入硬盤,所以其寫入的速度主要取決於硬盤傳輸的速度。Oracle則不同,因為他經常要隨機讀寫,這樣硬盤磁頭需要不斷的尋找數據所在,所以瓶頸在於硬盤尋道時間。
1.3、Hbase很適合尋找按照時間排序top n的場景
1.4、索引不同造成行為的差異。
1.5、Oracle 既可以做OLTP又可以做OLAP,但在某種極端的情況下(負荷十分之大),就不適合了。
2 Hbase的局限:
1、只能做簡單的Key value查詢,復雜的sql統計做不到。
2、只能在row key上做快速查詢。
3 傳統數據庫的行式存儲
在數據分析的場景裏面,我們經常是以某個列作為查詢條件,返回的結果經常也只是某些列,不是全部的列。行式數據庫在這種情況下的I/O性能會很差,以Oracle為例,Oracle會有一個很大的數據文件,在這個數據文件中,劃分了很多block,然後在每個block中放入行,行是一行一行放進去,擠在一起,然後把block塞滿,當然也會預留一些空間,用於將來update。這種結構的缺點是:當我們讀某個列的時候,比如我們只需要讀紅色標記的列的時候,不能只讀這部分數據,我必須把整個block讀取到內存中,然後再把這些列的數據取出來,換句話說,我為了讀表中某些列的數據,我必須把整個列的行讀完,才可以讀到這些列。如果這些列的數據很少,比如1T的數據中只占了100M, 為了讀100M數據卻要讀取1TB的數據到內存中去,則顯然是不劃算。
3.1 B+索引
Oracle中采用的數據訪問技術主要是B數索引:
從樹的跟節點出發,可以找到葉子節點,其記錄了key值對應的那行的位置。
對B樹的操作:
B樹插入——分裂節點
B數刪除——合並節點
4 列式存儲
同一個列的數據會擠在一起,比如擠在block裏,當我需要讀某個列的時候,值需要把相關的文件或塊讀到內存中去,整個列就會被讀出來,這樣I/O會少很多。
同一個列的數據的格式比較類似,這樣可以做大幅度的壓縮。這樣節省了存儲空間,也節省了I/O,因為數據被壓縮了,這樣讀的數據量隨之也少了。
行式數據庫適合OLTP,反倒列式數據庫不適合OLTP。
4.1 BigTable的LSM(Log Struct Merge)索引
在Hbase中日誌即數據,數據就是日誌,他們是一體化的。為什麽這麽說了,因為Hbase的更新時插入一行,刪除也是插入一行,然後打上刪除標記,則不就是日誌嗎?
在Hbase中,有Memory Store,還有Store File,其實每個Memory Store和每個Store File就是對每個列族附加上一個B+樹(有點像Oracle的索引組織表,數據和索引是一體化的), 也就是圖的下面是列族,上面是B+樹,當進行數據的查詢時,首先會在內存中memory store的B+樹中查找,如果找不到,再到Store File中去找。
如果找的行的數據分散在好幾個列族中,那怎麽把行的數據找全呢?那就需要找好幾個B+樹,這樣效率就比較低了。所以盡量讓每次insert的一行的列族都是稀疏的,只在某一個列族上有值,其他列族沒有值,
一,索引不同造成行為的差異
Hbase只能建立一個主鍵索引,而且之後的數據查詢也只能基於該索引進行簡單的key-value查詢;
但是Oracle可以建立任意索引,也可以按照任意列進行數據查詢。
二,Hbase適合大量插入同時又有讀的情況,讀一般為key-value查詢
大數據、高並發正合Hbase的胃口
三,Hbase的瓶頸是硬盤傳輸速度,Oracle的瓶頸是硬盤尋道時間
Hbase都是大量往硬盤上寫數據(沒有delete、update,都是insert),即使是讀數據,也是優先MemStore,所以硬盤傳輸速度成為其瓶頸;
而Oracle由於具有隨機訪問特性(select、update等),所以硬盤尋道時間成為其瓶頸,而尋道時間主要由轉速決定。
四,Hbase很適合尋找按照時間排序top n的場景
因為Hbase的數據都具有時間戳(Hbase默認就有時間戳)
行式存儲示意圖:
行式存儲:
數據存放在數據文件內
數據文件的基本組成單位:塊/頁(一行接一行存在block中,當然block不會填滿,預留空間進行行的操作,譬如:update)
塊內結構:塊頭、數據區
為了select橘紅色的列,行式數據庫會把整個block加在到內存,然後篩選出所需列。
而對於Hbase而言,由於數據存儲特性,數據以列族為單位進行存儲,一個文件塊存儲的都是同一個列族的數據),
這樣,查詢會比行式數據庫優化很多。
另外,由於在Hbase中,同一個列裏面數據格式比較接近,或者長度相近,從而可以對數據進行大幅度的壓縮,
結果就是節省了硬盤空間,也減少了IO
Hbase和Oracle的對比