面试题：Hbase中HBase Compaction高级策略的主要类型有哪些及简单原理

工作原理：
- Leveled Compaction将数据文件按层级（levels）组织。初始写入的数据先进入Level 0层。当Level 0层的文件数量达到一定阈值时，会触发Compaction操作。
- 与其他策略不同，Leveled Compaction不是将同一层内的文件合并，而是将Level 0层的文件与Level 1层的相关文件合并，生成新的文件写入Level 1层。如果Level 1层的文件大小或数量又达到阈值，会进一步与Level 2层的文件合并，依此类推。
- 这种策略旨在通过跨层合并，尽量减少每个层级内文件的重叠范围，使得数据分布更加有序，查询时能减少需要扫描的文件数量。
适用场景：
- 适用于读密集型工作负载。由于数据按层级有序分布，查询时只需扫描较少的文件，能显著提高读取性能。比如在线数据分析（OLAP）场景，需要频繁对大量历史数据进行分析查询，Leveled Compaction可以快速定位和读取相关数据。
- 对于存储空间利用率要求较高的场景也比较适用，因为它减少了文件重叠，使得数据存储更加紧凑。

工作原理：
- SizeTiered Compaction也是按层级组织文件，但层级划分主要依据文件大小。较小的文件在较低层级，随着文件大小增长，会逐步合并到更高层级。
- 当某一层级内的文件总大小达到一定阈值时，会触发Compaction。Compaction过程中，同一层级内的文件会被合并，生成更大的文件并移动到更高层级。
- 这种策略在合并时主要关注同层内文件的合并，与Leveled Compaction跨层合并有明显区别。它通过将小文件合并成大文件，减少文件数量，从而降低管理开销。
适用场景：
- 适用于写密集型工作负载。由于主要在同层内合并文件，减少了跨层合并带来的额外I/O开销，能够提高写入性能。例如物联网（IoT）数据采集场景，大量设备持续不断地写入数据，SizeTiered Compaction能快速处理这些写入请求。
- 对于一些对数据实时性要求不高，更注重写入效率的场景比较合适。因为在写操作频繁时，Leveled Compaction的跨层合并可能会导致较长时间的I/O等待，而SizeTiered Compaction可以更快地处理写入。

知识考点