大叔問題定位分享（43）hbase大面積重啟

阿新 • • 發佈：2022-05-19

現象

hbase的region server程序大面積重啟

排查

第一個重啟的region server節點有如下報錯：

2021-12-03 14:44:11,948 WARN org.apache.hadoop.hdfs.DFSClient: Failed to connect to /$server_ip:9866 for block BP-1167696284-$server-1562655739823:blk_1194519210_222148577, add to deadNodes and continue.
java.io.EOFException: Unexpected EOF while trying to read response from server
    at org.apache.hadoop.hdfs.protocolPB.PBHelperClient.vintPrefixed(PBHelperClient.java:539)
    at org.apache.hadoop.hdfs.client.impl.BlockReaderRemote.newBlockReader(BlockReaderRemote.java:407)
    at org.apache.hadoop.hdfs.client.impl.BlockReaderFactory.getRemoteBlockReader(BlockReaderFactory.java:848)
    at org.apache.hadoop.hdfs.client.impl.BlockReaderFactory.getRemoteBlockReaderFromTcp(BlockReaderFactory.java:744)
    at org.apache.hadoop.hdfs.client.impl.BlockReaderFactory.build(BlockReaderFactory.java:379)
    at org.apache.hadoop.hdfs.DFSInputStream.getBlockReader(DFSInputStream.java:644)
    at org.apache.hadoop.hdfs.DFSInputStream.blockSeekTo(DFSInputStream.java:575)
    at org.apache.hadoop.hdfs.DFSInputStream.readWithStrategy(DFSInputStream.java:757)
    at org.apache.hadoop.hdfs.DFSInputStream.read(DFSInputStream.java:829)
    at java.io.DataInputStream.read(DataInputStream.java:149)
    at org.apache.hadoop.hbase.io.hfile.HFileBlock.readWithExtra(HFileBlock.java:765)
    at org.apache.hadoop.hbase.io.hfile.HFileBlock$FSReaderImpl.readAtOffset(HFileBlock.java:1562)
    at org.apache.hadoop.hbase.io.hfile.HFileBlock$FSReaderImpl.readBlockDataInternal(HFileBlock.java:1772)
    at org.apache.hadoop.hbase.io.hfile.HFileBlock$FSReaderImpl.readBlockData(HFileBlock.java:1597)
    at org.apache.hadoop.hbase.io.hfile.HFileReaderImpl.readBlock(HFileReaderImpl.java:1488)
    at org.apache.hadoop.hbase.io.hfile.HFileBlockIndex$CellBasedKeyBlockIndexReader.loadDataBlockWithScanInfo(HFileBlockIndex.java:340)
    at org.apache.hadoop.hbase.io.hfile.HFileReaderImpl$HFileScannerImpl.seekTo(HFileReaderImpl.java:852)
    at org.apache.hadoop.hbase.io.hfile.HFileReaderImpl$HFileScannerImpl.reseekTo(HFileReaderImpl.java:833)
    at org.apache.hadoop.hbase.regionserver.StoreFileScanner.reseekAtOrAfter(StoreFileScanner.java:347)
    at org.apache.hadoop.hbase.regionserver.StoreFileScanner.reseek(StoreFileScanner.java:256)
    at org.apache.hadoop.hbase.regionserver.StoreFileScanner.enforceSeek(StoreFileScanner.java:469)
    at org.apache.hadoop.hbase.regionserver.KeyValueHeap.pollRealKV(KeyValueHeap.java:369)
    at org.apache.hadoop.hbase.regionserver.KeyValueHeap.generalizedSeek(KeyValueHeap.java:311)
    at org.apache.hadoop.hbase.regionserver.KeyValueHeap.requestSeek(KeyValueHeap.java:275)
    at org.apache.hadoop.hbase.regionserver.StoreScanner.reseek(StoreScanner.java:995)
    at org.apache.hadoop.hbase.regionserver.StoreScanner.seekAsDirection(StoreScanner.java:986)
    at org.apache.hadoop.hbase.regionserver.StoreScanner.seekOrSkipToNextColumn(StoreScanner.java:755)
    at org.apache.hadoop.hbase.regionserver.StoreScanner.next(StoreScanner.java:643)
    at org.apache.hadoop.hbase.regionserver.KeyValueHeap.next(KeyValueHeap.java:153)
    at org.apache.hadoop.hbase.regionserver.HRegion$RegionScannerImpl.populateResult(HRegion.java:6542)
    at org.apache.hadoop.hbase.regionserver.HRegion$RegionScannerImpl.nextInternal(HRegion.java:6706)
    at org.apache.hadoop.hbase.regionserver.HRegion$RegionScannerImpl.nextRaw(HRegion.java:6479)
    at org.apache.hadoop.hbase.regionserver.RSRpcServices.scan(RSRpcServices.java:3133)
    at org.apache.hadoop.hbase.regionserver.RSRpcServices.scan(RSRpcServices.java:3382)
    at org.apache.hadoop.hbase.shaded.protobuf.generated.ClientProtos$ClientService$2.callBlockingMethod(ClientProtos.java:42002)
    at org.apache.hadoop.hbase.ipc.RpcServer.call(RpcServer.java:413)
    at org.apache.hadoop.hbase.ipc.CallRunner.run(CallRunner.java:130)
    at org.apache.hadoop.hbase.ipc.RpcExecutor$Handler.run(RpcExecutor.java:324)
    at org.apache.hadoop.hbase.ipc.RpcExecutor$Handler.run(RpcExecutor.java:304)

以上報錯將1個DataNode新增到deadNodes，檢視前後的日誌發現，當時所有的DataNode陸續都被加入到deadNodes裡，然後出現大量的chooseDataNode等待

2021-12-03 14:44:14,200 WARN org.apache.hadoop.hdfs.DFSClient: DFS chooseDataNode: got # 2 IOException, will wait for 5451.453074801748 msec.

最後在flushRegion中觸發region server shutdown

2021-12-03 14:56:05,063 ERROR org.apache.hadoop.hbase.regionserver.HRegionServer: ***** ABORTING region server hadoop-*,16020,1637906994273: Replay of WAL required. Forcing server shutdown *****
org.apache.hadoop.hbase.DroppedSnapshotException: region: $table,5401J8302AED1NKkbeAhMylocation1613999527000,1637420436099.ebdab45bddd73147920a80ca60a148d5.
    at org.apache.hadoop.hbase.regionserver.HRegion.internalFlushCacheAndCommit(HRegion.java:2769)
    at org.apache.hadoop.hbase.regionserver.HRegion.internalFlushcache(HRegion.java:2448)
    at org.apache.hadoop.hbase.regionserver.HRegion.internalFlushcache(HRegion.java:2420)
    at org.apache.hadoop.hbase.regionserver.HRegion.flushcache(HRegion.java:2310)
    at org.apache.hadoop.hbase.regionserver.MemStoreFlusher.flushRegion(MemStoreFlusher.java:612)
    at org.apache.hadoop.hbase.regionserver.MemStoreFlusher.flushRegion(MemStoreFlusher.java:581)
    at org.apache.hadoop.hbase.regionserver.MemStoreFlusher.access$1000(MemStoreFlusher.java:68)
    at org.apache.hadoop.hbase.regionserver.MemStoreFlusher$FlushHandler.run(MemStoreFlusher.java:361)
    at java.lang.Thread.run(Thread.java:748)
Caused by: java.io.IOException: Could not get block locations. Source file "/user/hbase/path/ebdab45bddd73147920a80ca60a148d5/.tmp/cf/e884b98dcbb94c2a966ee17fec1f86ff" - Aborting...block==null
    at org.apache.hadoop.hdfs.DataStreamer.setupPipelineForAppendOrRecovery(DataStreamer.java:1477)
    at org.apache.hadoop.hdfs.DataStreamer.processDatanodeOrExternalError(DataStreamer.java:1256)
    at org.apache.hadoop.hdfs.DataStreamer.run(DataStreamer.java:667)

檢視其中一個data node日誌，在連線失敗前有大量的block遷移

2021-12-03 14:43:35,974 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Receiving BP-1167696284-$server-1562655739823:blk_1217984426_251581514 src: /$server1:56769 dest: /$server2:9866

峰值期間每分鐘幾千個block遷移，然後發生大量的寫入失敗報錯

2021-12-03 14:44:11,025 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: opWriteBlock BP-1167696284-$server-1562655739823:blk_1217989487_251586624 received exception java.io.IOException: Premature EOF from inputStream
2021-12-03 14:44:11,025 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: hadoop-*:9866:DataXceiver error processing WRITE_BLOCK operation  src: /$server1:36532 dst: /$server2:9866
java.io.IOException: Premature EOF from inputStream
    at org.apache.hadoop.io.IOUtils.readFully(IOUtils.java:210)
    at org.apache.hadoop.hdfs.protocol.datatransfer.PacketReceiver.doReadFully(PacketReceiver.java:211)
    at org.apache.hadoop.hdfs.protocol.datatransfer.PacketReceiver.doRead(PacketReceiver.java:134)
    at org.apache.hadoop.hdfs.protocol.datatransfer.PacketReceiver.receiveNextPacket(PacketReceiver.java:109)
    at org.apache.hadoop.hdfs.server.datanode.BlockReceiver.receivePacket(BlockReceiver.java:528)
    at org.apache.hadoop.hdfs.server.datanode.BlockReceiver.receiveBlock(BlockReceiver.java:971)
    at org.apache.hadoop.hdfs.server.datanode.DataXceiver.writeBlock(DataXceiver.java:903)
    at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.opWriteBlock(Receiver.java:173)
    at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.processOp(Receiver.java:107)
    at org.apache.hadoop.hdfs.server.datanode.DataXceiver.run(DataXceiver.java:291)
    at java.lang.Thread.run(Thread.java:748)

然後報錯

2021-12-03 14:44:11,647 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: hadoop-9:9866:DataXceiverServer:
java.io.IOException: Xceiver count 4098 exceeds the limit of concurrent xcievers: 4096
    at org.apache.hadoop.hdfs.server.datanode.DataXceiverServer.run(DataXceiverServer.java:150)
    at java.lang.Thread.run(Thread.java:748)

提示xceiver數量超過配置的4096，這個配置項為dfs.datanode.max.transfer.threads，預設值為4096，所有的data node都是按照這個順序報錯。

再看為什麼會在短時間內有大量的block遷移，發現這些block來自於一個hive任務

2021-12-03 14:44:08,339 INFO org.apache.hadoop.hdfs.StateChange: BLOCK* allocate blk_1217988988_251586118, replicas=$server1:9866, $server2:9866, $server3:9866 for /user/hive/warehouse/db/table/.hive-staging_hive_2021-12-03_14-41-15_268_2506643276888241386-19667/_task_tmp.-ext-10002/dt=dt/_tmp.000031_0

問題清楚了，一個原因是data node配置的transfer thread太少，一個是執行大的hive任務，觸發問題。

大叔問題定位分享（43）hbase大面積重啟

現象 hbase的region server程序大面積重啟排查第一個重啟的region server節點有如下報錯：

【原創】大叔問題定位分享（38）impala報錯記憶體不足

impala有時查詢報錯記憶體不足,並持續一段時間後自動恢復,報錯時日誌如下: org.apache.hive.service.cli.HiveSQLException: ExecQueryFInstances rpc query_id=834c3b2376181f0e:a901620f00000000 failed: Failed to

大叔問題定位分享（42）yarn被利用提交get-shell任務挖礦

背景某天開始叢集網路頻寬被佔滿登入出問題的節點，通過iftop發現有大量出網方向的流量

大叔問題定位分享（47）kafka執行reassign後部分partition一直is still in progress

背景 kafka執行reassign後部分partition一直is still in progress，日誌如下：定位經排查發現問題原因是做reassign的時候，將分割槽從相同broker的一個盤移動到另一個盤，這個操作目前還不被支援，官方解釋如下

【原創】大叔經驗分享（117）mac/windows/linux遠端桌面互聯

RDP RDP(Remote Display Protocol)遠端顯示協議。任意rdp客戶端都可以連線任意rdp服務端,以下可自由組合

【原創】大叔經驗分享（119）rxvt

增加配置 cat ~/.Xresources URxvt.title: rxvt URxvt.preeditType: Root !! Input Method URxvt.inputMethod: fcitx

大叔經驗分享（135）hive開啟ldap認證

hive-site.xml 1 接入ldap或ad域 <property> <name>hive.server2.authentication</name>

大叔經驗分享（137）kafka開啟壓縮

kafka開啟壓縮後，可以極大的優化磁碟佔用和網路傳輸開銷，開啟壓縮的引數為compression.type

大叔經驗分享（139）doris和clickhouse對比

*** doris clickhouse 官網 http://doris.apache.org/ https://clickhouse.tech/ 版本 0.14.0 21.7.2.7 開源是

大叔經驗分享（140）OLAP引擎對比測試

一測試資料 SSB (Star Schema Benchmark) SSB SSB將TPC-H的雪花模式簡化為了星型模式，將基準查詢由TPC-H的複雜Ad-Hoc查詢改為了結構更固定的OLAP查詢

大叔經驗分享（141）ElasticSearch優化實踐

1 冷熱分離（Hot/Warm/Cold） Index Lifecircle Management Policy 索引特點 Hot: 索引被更新，大量被查詢

9 Linux 常用命令（八）關機和重啟命令

9 Linux 常用命令（八）關機和重啟命令 9.1 sync資料同步 Linux sync命令用於資料同步,sync命令是在關閉Linux系統時使用的。

HBase 系列（七）——HBase 過濾器詳解

一、HBase過濾器簡介 Hbase 提供了種類豐富的過濾器（filter）來提高資料處理的效率，使用者可以通過內建或自定義的過濾器來對資料進行過濾，所有的過濾器都在服務端生效，即謂詞下推（predicate push down）。這樣可

HBase 系列（六）——HBase Java API 的基本使用

一、簡述截至到目前 (2019.04)，HBase 有兩個主要的版本，分別是 1.x 和 2.x ，兩個版本的 Java API 有所不同，1.x 中某些方法在 2.x 中被標識為 @deprecated 過時。所以下面關於 API 的樣例，我會分別給出 1.x 和

HBase 系列（十）—— HBase 的 SQL 中間層 Phoenix

一、Phoenix簡介 Phoenix 是 HBase 的開源 SQL 中間層，它允許你使用標準 JDBC 的方式來操作 HBase 上的資料。在 Phoenix 之前，如果你要訪問 HBase，只能呼叫它的 Java API，但相比於使用一行 SQL 就能實現資料查詢

HBase 系列（九）——HBase 容災與備份

一、前言本文主要介紹 Hbase 常用的三種簡單的容災備份方案，即CopyTable、Export/Import、Snapshot。分別介紹如下：

HBase 系列（八）——HBase 協處理器

一、簡述在使用 HBase 時，如果你的資料量達到了數十億行或數百萬列，此時能否在查詢中返回大量資料將受制於網路的頻寬，即便網路狀況允許，但是客戶端的計算處理也未必能夠滿足要求。在這種情況下，協處理器（Copr

HBase 系列（五）——HBase 常用 Shell 命令

一、基本命令開啟 Hbase Shell： # hbase shell 複製程式碼 1.1 獲取幫助 # 獲取幫助 help

HBase 系列（四）—— HBase 叢集環境配置

一、叢集規劃這裡搭建一個 3 節點的 HBase 叢集，其中三臺主機上均為 Regin Server。同時為了保證高可用，除了在 hadoop001 上部署主 Master 服務外，還在 hadoop002 上部署備用的 Master 服務。Master 服務由 Zook

HBase 系列（二）—— HBase 系統架構及資料結構

一、基本概念一個典型的 Hbase Table 表如下： 1.1 Row Key (行鍵) Row Key 是用來檢索記錄的主鍵。想要訪問 HBase Table 中的資料，只有以下三種方式：

大叔問題定位分享（43）hbase大面積重啟

現象

排查

相關推薦