1.现象:
昨晚集群夯住,内存不够,导致HBase RegionServer挂了!
紧跟着CDH HBase Master(active)节点是红色的,显示信息:HBase Regions In Transition Over Threshold
这时我知道又遇见HBase RIT了。
2.常见解决方法:
2.1 重启HBase,尝试了2次后,发现HBase Master(active)节点是依旧红色的
虽然我们可以连接HBase,但是查询速度(dbeaver工具+Phoenix)上是非常慢的,
还抛错一个错误: Cache of region boundaries are out of date.
2.2 在master节点:使用hbase进程所在的用户
su - hbase
hbase hbck -fixAssignments
用于修复region assignments错误,观察发现越来越多的RIT的Regions,及时终止命令
也尝试了一下 hbase hbck、hbase hbck -repair,日志刷了很久也没解决。
2.3 查看master节点日志,发现如下日志
2018-08-21 09:50:47,924 INFO org.apache.hadoop.hbase.master.SplitLogManager: total tasks = 1 unassigned = 0 tasks={/hbase/splitWAL/WALs%2Fhadoop49%2C60020%2C1534734073978-splitting%2Fhadoop49%252C60020%252C1534734073978.null0.1534762936638=last_update = 1534816154977 last_version = 22 cur_worker_name = hadoop47,60020,1534815723497 status = in_progress incarnation = 2 resubmits = 2 batch = installed = 1 done = 0 error = 0}
复制
由于日志刷的很快,加上是info级别,刚开始真心没注意!
后来通过分析HBase master web界面,发现:
a.RIT的regions都是在hadoop49机器
b.master的log日志也是显示hadoop49机器的splitting log,
一直在in_progress状态
(观察差不多10分钟,一直再刷info级别且此状态)
3.暴力解决:
3.1 直接使用hdfs命令先找到日志,再rm删除(移除到回收站)
hadoop36:hdfs:/var/lib/hadoop-hdfs:>hdfs dfs -ls hdfs://nameservice1/hbase/WALs/*splitting
Found 1 items
-rw-r--r-- 3 hbase hbase 21132987 2018-08-20 19:02 hdfs://nameservice1/hbase/WALs/hadoop49,60020,1534734073978-splitting/hadoop49%2C60020%2C1534734073978.null0.1534762936638
hadoop36:hdfs:/var/lib/hadoop-hdfs:>
hadoop36:hdfs:/var/lib/hadoop-hdfs:>
hadoop36:hdfs:/var/lib/hadoop-hdfs:>hdfs dfs -rm hdfs://nameservice1/hbase/WALs/hadoop49,60020,1534734073978-splitting/hadoop49%2C60020%2C1534734073978.null0.1534762936638
18/08/21 12:46:15 INFO fs.TrashPolicyDefault: Moved: 'hdfs://nameservice1/hbase/WALs/hadoop49,60020,1534734073978-splitting/hadoop49%2C60020%2C1534734073978.null0.1534762936638' to trash at: hdfs://nameservice1/user/hdfs/.Trash/Current/hbase/WALs/hadoop49,60020,1534734073978-splitting/hadoop49%2C60020%2C1534734073978.null0.1534762936638
hadoop36:hdfs:/var/lib/hadoop-hdfs:>复制
3.2 重启HBase,等待一会,一切正常,保证HBase对外提供服务。
3.3 因为我们删除的是HLOG文件,必然会丢失数据,故使用MCP实时中间件,web界面定制数据重刷job(昨晚19:00~21:00故障范围时间),恢复数据。
点击报名:HBase应用实践专场-中国HBase技术社区第3届MeetUp杭州站

大家工作学习遇到HBase技术问题,把问题发布到HBase技术社区论坛http://hbase.group,欢迎大家论坛上面提问留言讨论。想了解更多HBase技术关注HBase技术社区公众号(微信号:hbasegroup),非常欢迎大家积极投稿。
长按下面的二维码加入HBase技术社区微信群
文章转载自HBase技术社区,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
评论
相关阅读
2025年4月中国数据库流行度排行榜:OB高分复登顶,崖山稳驭撼十强
墨天轮编辑部
1301次阅读
2025-04-09 15:33:27
2025年3月国产数据库大事记
墨天轮编辑部
736次阅读
2025-04-03 15:21:16
2025年3月国产数据库中标情况一览:TDSQL大单622万、GaussDB大单581万……
通讯员
531次阅读
2025-04-10 15:35:48
征文大赛 |「码」上数据库—— KWDB 2025 创作者计划启动
KaiwuDB
458次阅读
2025-04-01 20:42:12
数据库,没有关税却有壁垒
多明戈教你玩狼人杀
408次阅读
2025-04-11 09:38:42
优炫数据库成功应用于国家电投集团青海海南州新能源电厂!
优炫软件
384次阅读
2025-03-21 10:34:08
天津市政府数据库框采结果公布!
通讯员
315次阅读
2025-04-10 12:32:35
最近我为什么不写评论国产数据库的文章了
白鳝的洞穴
311次阅读
2025-04-07 09:44:54
从HaloDB体验到国产数据库兼容性
多明戈教你玩狼人杀
268次阅读
2025-04-07 09:36:17
国产数据库需要扩大场景覆盖面才能在竞争中更有优势
白鳝的洞穴
259次阅读
2025-04-14 09:40:20
热门文章
Impala 版本 | Apache Impala 4.0 发布了!
2021-07-15 3827浏览
HBase排查|排查解决HBase目录空间占用异常
2020-06-18 3230浏览
数据湖 | 基于 Hudi & Iceberg 如何构建数据湖
2021-08-06 2904浏览
深度剖析HBase负载均衡和性能指标
2018-10-03 2553浏览
HBase实战 | 从MySQL到HBase:分库分表方案转型的演进
2019-01-12 1860浏览
最新文章
Kafka 特性 | 彻底摆脱 ZooKeeper,Kafka3 的 KRaft 机制剖析
2022-02-16 1699浏览
首批+唯一!阿里云实时计算 Flink 版通过信通院大数据产品稳定性测试
2022-02-15 417浏览
Apache Flink 不止于计算,数仓架构或兴起新一轮变革
2022-01-10 246浏览
Flink 特性 | Flink Remote Shuffle 开源:面向流批一体与云原生的 Shuffle 服务
2021-12-03 424浏览
Lindorm 总结|十年磨一剑,云原生多模数据库 Lindorm 2021双十一总结
2021-11-29 937浏览