Hbase的資料寫入

阿新 • • 發佈：2019-01-29

2.1 多HTable併發寫

建立多個HTable客戶端用於寫操作，提高寫資料的吞吐量，一個例子：

staticfinal Configuration conf = HBaseConfiguration.create();staticfinal String table_log_name = “user_log”;wTableLog = new HTable[tableN];for (int i = 0; i < tableN; i++) { wTableLog[i] = new HTable(conf, table_log_name); wTableLog[i].setWriteBufferSize(5 * 1024 * 1024);

//5MB wTableLog[i].setAutoFlush(false);}

2.2 HTable引數設定

2.2.1 Auto Flush

通過呼叫HTable.setAutoFlush(false)方法可以將HTable寫客戶端的自動flush關閉，這樣可以批量寫入資料到HBase，而不是有一條put就執行一次更新，只有當put填滿客戶端寫快取時，才實際向HBase服務端發起寫請求。預設情況下auto flush是開啟的。

2.2.2 Write Buffer

通過呼叫HTable.setWriteBufferSize(writeBufferSize)方法可以設定HTable客戶端的寫

buffer大小，如果新設定的buffer小於當前寫buffer中的資料時，buffer將會被flush到服務端。其中，writeBufferSize的單位是byte位元組數，可以根據實際寫入資料量的多少來設定該值。

2.2.3 WAL Flag

在HBae中，客戶端向叢集中的RegionServer提交資料時（Put/Delete操作），首先會先寫WAL（Write Ahead Log）日誌（即HLog，一個RegionServer上的所有Region共享一個HLog），只有當WAL日誌寫成功後，再接著寫MemStore，然後客戶端被通知提交資料成功；如果寫WAL日誌失敗，客戶端則被通知提交失敗。這樣做的好處是可以做到

RegionServer宕機後的資料恢復。

因此，對於相對不太重要的資料，可以在Put/Delete操作時，通過呼叫Put.setWriteToWAL(false)或Delete.setWriteToWAL(false)函式，放棄寫WAL日誌，從而提高資料寫入的效能。

值得注意的是：謹慎選擇關閉WAL日誌，因為這樣的話，一旦RegionServer宕機，Put/Delete的資料將會無法根據WAL日誌進行恢復。

2.3 批量寫

通過呼叫HTable.put(Put)方法可以將一個指定的row key記錄寫入HBase，同樣HBase提供了另一個方法：通過呼叫HTable.put(List<Put>)方法可以將指定的row key列表，批量寫入多行記錄，這樣做的好處是批量執行，只需要一次網路I/O開銷，這對於對資料實時性要求高，網路傳輸RTT高的情景下可能帶來明顯的效能提升。

2.4 多執行緒併發寫

在客戶端開啟多個HTable寫執行緒，每個寫執行緒負責一個HTable物件的flush操作，這樣結合定時flush和寫buffer（writeBufferSize），可以既保證在資料量小的時候，資料可以在較短時間內被flush（如1秒內），同時又保證在資料量大的時候，寫buffer一滿就及時進行flush。下面給個具體的例子：

for (int i = 0; i < threadN; i++) { Thread th = new Thread() {publicvoid run() {while (true) {try { sleep(1000); //1 second } catch (InterruptedException e) { e.printStackTrace(); }synchronized (wTableLog[i]) {try { wTableLog[i].flushCommits(); } catch (IOException e) { e.printStackTrace(); } } }} }; th.setDaemon(true); th.start();}

Hbase的資料寫入

2.1 多HTable併發寫

2.2 HTable引數設定

2.2.1 Auto Flush

2.2.2 Write Buffer

2.2.3 WAL Flag

2.3 批量寫

2.4 多執行緒併發寫

簡單實現kafka資料寫入hbase

spark從hbase讀取寫入資料

blukload方式將資料寫入HBase

使用spark將資料寫入Hbase

MR讀Hbase資料，寫入到Mysql(HBase->Mysql)

flume將多列資料寫入HBase的配置

HBase －資料寫入流程解析

spark讀取kafka資料寫入hbase

Hbase的資料寫入

hbase大規模資料寫入的優化歷程

HBase建表高階屬性，hbase應用案例看行鍵設計，HBase和mapreduce結合，從Hbase中讀取資料、分析，寫入hdfs，從hdfs中讀取資料寫入Hbase，協處理器和二級索引

Spark將資料寫入Hbase以及從Hbase讀取資料

python 將資料寫入excel

IO流讀取資料檔案，將資料寫入資料庫，並記錄資料匯入日誌

python通過下載連結可以下載成excel，直接將資料寫入資料庫中

Java 將資料寫入磁碟並讀取磁碟上的檔案

集合資料寫入檔案

app應用啟動測試，並將資料寫入csv檔案

將資料寫入csv檔案

用python在後端將資料寫入到資料庫並讀取

Hbase的資料寫入

2.1 多HTable併發寫

2.2 HTable引數設定

2.2.1 Auto Flush

2.2.2 Write Buffer

2.2.3 WAL Flag

2.3 批量寫

2.4 多執行緒併發寫

相關推薦