面试题：HBase批量处理策略在高并发读写场景下的优化实践

使用事务：HBase 本身不支持跨行事务，但对于单行数据的操作是原子的。如果批量操作都是针对单行，可以利用这个特性保证原子性。若涉及多行，可以考虑使用 Phoenix 等工具，它基于 HBase 实现了跨行事务支持，在批量写入时确保要么所有操作都成功，要么都失败。
写入日志：在批量写入前，先记录要写入的操作日志到 HLog（HBase Write Ahead Log）。如果部分写入失败，可以通过回放日志来恢复数据一致性，确保整个批量操作的原子性。

合理设置批量大小：根据网络带宽、服务器性能和数据大小等因素，通过测试确定合适的批量读取大小。如果批量大小过小，网络开销大，吞吐量低；批量过大，可能导致内存不足或响应时间变长。一般从较小值开始测试，如 100 条记录，逐步调整找到最优值。
缓存机制：启用客户端缓存，对于经常读取的数据，在客户端缓存起来。当再次读取相同数据时，直接从缓存获取，减少对 HBase 的读请求。可以使用 Guava Cache 等工具实现客户端缓存。同时，利用 HBase 本身的 BlockCache，它缓存从 HDFS 读取的 HBase 数据块，合理调整 BlockCache 相关参数（如 hbase.regionserver.blockcache.size，表示 BlockCache 占堆内存的比例），提高读性能。
并行读取：将读请求按照一定规则（如 rowkey 范围）进行拆分，并行发送多个读请求，充分利用服务器多核资源，提升整体吞吐量。可以使用 Java 的多线程机制或 Hadoop 的 MapReduce 框架来实现并行读取。

写入相关参数：
- hbase.client.write.buffer：控制客户端写入缓冲区大小，默认值可能过小，在高并发批量写入时可适当调大，比如调整为 128MB（134217728），以减少 flush 次数，提高写入性能。但要注意不要设置过大导致内存溢出。
- hbase.regionserver.optionalcacheflushinterval：设置 HRegionServer 自动 flush MemStore 到 HDFS 的时间间隔，默认是 1 小时。在高并发写入场景下，可适当缩短，如设置为 30 分钟（1800000 毫秒），避免 MemStore 数据积压过多影响写入性能。
读取相关参数：
- hbase.regionserver.blockcache.size：前面提到过，它决定 BlockCache 占堆内存的比例，默认是 0.4。在以读为主的场景下，可以适当提高，如设置为 0.6，增加缓存数据量，提高读命中率。
- hbase.client.scanner.caching：控制扫描器每次从服务器获取的数据行数，默认值为 1。在批量读取时，可设置较大值，如 1000，减少客户端与服务器的交互次数，提高读取效率。

知识考点