面试题答案
一键面试故障检测指标
- 节点状态监控
- 指标:节点存活状态(在线/离线)
- 说明:通过定期心跳检测,若某个节点长时间无心跳,判定为离线故障。能及时发现节点宕机问题,以便快速定位故障节点。
- 服务端口监听
- 指标:HBase服务端口(如60000 - 60030等)的监听状态
- 说明:若端口无法监听,表明HBase服务进程可能异常,有助于快速判断服务是否正常启动或已崩溃。
- 集群负载指标
- 指标:RegionServer负载(如CPU使用率、内存使用率、磁盘I/O速率)
- 说明:过高的负载可能预示着即将发生故障,提前预警以便采取措施(如增加资源、迁移Region等)。
恢复过程指标
- 故障恢复启动时间
- 指标:从检测到故障到启动恢复流程的时间间隔
- 说明:衡量系统对故障的响应速度,若时间过长,可能存在检测机制延迟或恢复启动脚本问题。
- Region迁移进度
- 指标:已迁移Region数量、待迁移Region数量、迁移速率
- 说明:了解恢复过程中Region的重新分配情况,速率过慢或长时间停滞可判断为恢复受阻,需排查网络、资源等问题。
- 日志记录
- 指标:恢复过程中的关键日志信息(如异常堆栈、关键操作记录)
- 说明:用于定位恢复过程中出现的具体错误,辅助解决问题。
恢复结果验证指标
- 数据一致性检查
- 指标:数据副本一致性(副本间数据校验结果)
- 说明:确保恢复后的数据在各个副本间一致,防止数据丢失或损坏。
- 服务可用性
- 指标:HBase服务能否正常响应读写请求,响应时间
- 说明:验证恢复后的HBase是否能正常提供服务,响应时间过长可能存在性能问题。
- 集群状态一致性
- 指标:Meta表一致性、Region分布一致性
- 说明:保证集群元数据和Region分布正确,避免因恢复不当导致的集群状态混乱。