面试题：HBase存储写路径并发处理在分布式故障场景下的恢复策略

心跳机制：HBase Master通过心跳机制来监控Region Server的状态。Region Server会定期向Master发送心跳消息，若Master在一定时间内未收到某个Region Server的心跳，就会判定该Region Server发生故障。
ZooKeeper协同：Region Server在ZooKeeper上创建临时节点，若Region Server故障，其在ZooKeeper上的临时节点会自动删除。Master通过监听ZooKeeper上的节点变化，能及时感知Region Server故障。

WAL（Write - Ahead Log）重放
- 原理：HBase在写入数据时，会先将数据写入WAL日志（HLog）。当Region Server故障后，Master会重新分配故障Region Server上的Region到其他可用的Region Server。新的Region Server会根据WAL日志进行数据重放，将未完成的写入操作重新执行，从而恢复数据的一致性。
- 流程
  - Master检测到Region Server故障后，确定故障Region Server上的所有WAL文件。
  - 将这些WAL文件根据Region进行拆分，因为一个WAL文件可能包含多个Region的写入记录。
  - 把拆分后的WAL片段分配到对应的新Region Server上，新Region Server按照日志记录的顺序重放数据，完成未完成的写入操作。
MemStore与StoreFile的一致性恢复
- 原理：故障发生时，MemStore中的数据可能未完全持久化到StoreFile。重放WAL日志后，新的Region Server会检查MemStore和StoreFile的状态，确保数据的一致性。
- 流程
  - 新Region Server重放WAL日志后，将重放的数据更新到MemStore中。
  - 当MemStore达到一定阈值（如默认的128MB），会触发Flush操作，将MemStore中的数据写入StoreFile，保证数据的持久化和一致性。

性能影响
- 短期性能下降：故障发生时，重分配Region和重放WAL日志会消耗额外的系统资源，包括CPU、网络带宽和磁盘I/O。重放WAL日志需要读取日志文件并写入相应的Region，这会增加磁盘I/O负担；网络带宽用于传输WAL片段和Region相关的数据；CPU需要处理重放逻辑和数据的重新写入，从而导致整个集群的短期性能下降。
- 长期性能恢复：随着WAL重放完成和系统逐渐稳定，集群性能会逐渐恢复到正常水平。但如果故障频繁发生，持续的重放操作会持续影响集群性能。
可用性影响
- 短暂不可用：Region Server故障瞬间，该Region Server上的Region不可用，客户端对这些Region的读写请求会失败。但由于Master能快速检测到故障并重新分配Region，整个集群的不可用时间相对较短。
- 整体可用性保障：HBase通过WAL重放等机制，能在故障发生后尽量恢复数据一致性，保障了集群的整体可用性。即使部分Region Server故障，其他正常的Region Server仍可继续提供服务，整个集群不会完全瘫痪。

知识考点