面试题：HBase中LSM树的核心机制是什么

数据结构
- 内存结构（MemStore）：HBase 采用 LSM 树结构，数据首先写入内存中的 MemStore，它是一个按照 key 排序的内存数据结构，通常使用跳表（SkipList）实现，这样可以保证插入和查询操作的时间复杂度接近 O(log n)。
- 磁盘结构（StoreFile）：当 MemStore 达到一定阈值（例如 128MB），会将数据 flush 到磁盘形成 StoreFile。StoreFile 以 HFile 格式存储在 HDFS 上，其内部数据也是按键排序的。多个 StoreFile 可以组成一个 Store，一个 Region 由多个 Store 组成。
写入流程
- 写入 MemStore：客户端写入数据时，数据首先被写入到 MemStore 中，这是一个内存中的数据结构，写入操作是顺序的，速度非常快。在写入 MemStore 之前，数据会先写入 WAL（Write - Ahead Log），用于故障恢复。
- MemStore Flush：当 MemStore 达到配置的阈值（如 128MB）时，会触发 flush 操作，将 MemStore 中的数据写入到磁盘生成一个新的 StoreFile。这个过程是异步的，以减少对写入性能的影响。
- Compaction：随着不断的写入，磁盘上会产生多个 StoreFile，这些文件可能包含重复或过期的数据。Compaction 操作会定期将多个 StoreFile 合并成一个或几个更大的 StoreFile，在合并过程中，会删除过期数据和合并重复数据，同时重新对数据按键排序。

高写入性能：LSM 树将写入操作先放在内存中进行，避免了磁盘随机 I/O。顺序写入内存的速度远高于磁盘随机写入，大大提高了写入性能。同时，由于 MemStore 采用按键排序的数据结构，后续 flush 到磁盘时也能保持顺序写入，进一步提升写入效率。
数据持久化与故障恢复：通过 WAL 机制，即使系统发生故障，也可以根据 WAL 中的记录恢复未持久化到磁盘的数据。MemStore flush 生成的 StoreFile 持久化在 HDFS 上，保证了数据的可靠性。
空间效率：Compaction 操作可以清理过期数据和合并重复数据，有效节省磁盘空间。同时，将多个小的 StoreFile 合并成大的 StoreFile，减少了文件数量，降低了文件系统的元数据开销。
查询性能：虽然 LSM 树在写入时性能优越，但查询可能需要遍历多个 StoreFile。然而，由于数据在内存和磁盘中都是按键排序的，通过合理的查询优化（如 Bloom Filter 等技术），可以快速定位数据所在的 StoreFile，从而提高查询性能。

知识考点