面试题：在高并发场景下，Hbase LSM树分层结构可能面临哪些挑战及优化策略

性能瓶颈

写入放大
- 原因：在LSM树结构中，数据写入时先写入内存中的MemStore，当MemStore达到一定阈值后会flush成Immutable MemStore并写入磁盘形成SSTable。随着写入操作频繁，SSTable数量增多，后续合并操作可能会读取并重写大量数据，导致写入放大。
- 优化策略：
  - 调整MemStore大小：适当增大MemStore大小，减少flush频率，降低SSTable生成速度，从而减少合并次数和写入放大。但过大的MemStore可能导致内存占用过高，影响系统稳定性。
  - 优化合并策略：采用更合理的合并算法，如分层合并（Tiered Compaction）。它将SSTable按大小分层，合并时优先在同一层内进行，减少跨层合并的数据量，降低写入放大。原理是通过控制每层SSTable的数量和大小，使合并操作更高效。
读取放大
- 原因：由于数据分散在不同层次的SSTable中，读取数据时可能需要遍历多个SSTable才能找到完整的数据，尤其在数据分布不均匀或存在大量小文件时，读取放大问题更为严重。
- 优化策略：
  - 布隆过滤器（Bloom Filter）：在每个SSTable中添加布隆过滤器，它可以快速判断某个Key是否可能存在于该SSTable中。如果布隆过滤器判断Key不存在，则无需读取该SSTable，大大减少不必要的磁盘I/O，降低读取放大。其原理是利用位数组和多个哈希函数，以一定的误判率为代价，快速做出判断。
  - 缓存机制：采用多级缓存，如MemStore本身可作为一级缓存，同时添加Block Cache（块缓存）。Block Cache缓存从SSTable中读取的频繁访问的数据块，当再次读取相同数据块时可直接从缓存获取，减少磁盘I/O，降低读取放大。

数据一致性问题

读写一致性
- 原因：写入操作先进入MemStore，未及时flush到磁盘时，读操作可能无法获取最新数据，导致读写不一致。
- 优化策略：
  - 设置读一致性级别：提供不同的读一致性级别选项，如“读最新”（Read Latest）。在这种模式下，读操作不仅从磁盘读取数据，还会检查MemStore中是否有最新数据，确保读取到最新版本。原理是在读取路径上增加对MemStore的检查逻辑。
  - Write - Through策略：写入数据时，同时将数据写入MemStore和磁盘（或持久化存储），保证读操作能立即获取最新数据。但这种策略会增加写入延迟，因为每次写入都要等待磁盘操作完成。
副本一致性
- 原因：在分布式环境下，HBase通过副本机制保证数据可靠性，不同副本之间可能由于网络延迟、节点故障等原因出现数据不一致。
- 优化策略：
  - 基于日志的同步：利用Write - Ahead Log（WAL），每个写入操作先记录到WAL中，然后再应用到MemStore和副本节点。当副本节点出现故障恢复后，可以通过重放WAL日志来同步数据，保证副本一致性。
  - Paxos等一致性协议：采用分布式一致性协议如Paxos，在副本之间进行协商，确保在大多数副本达成一致的情况下才确认写入成功，从而保证副本一致性。其原理是通过多轮消息交互，使各个节点对数据的状态达成一致。

面试题：在高并发场景下，Hbase LSM树分层结构可能面临哪些挑战及优化策略

知识考点

面试题答案

性能瓶颈

数据一致性问题