面试题：在复杂HBase集群环境下如何精准调优Compaction策略？

hbase.hstore.compaction.min：此参数定义了触发Minor Compaction的最小文件数，默认值为3。对于海量数据且读写负载复杂的集群，可适当提高，如设为5 - 8。这样能减少Minor Compaction频率，避免过多小文件合并带来的I/O开销，但也不能设置过高，否则小文件过多会影响读性能。
hbase.hstore.compaction.max：决定了一次Minor Compaction能合并的最大文件数，默认值为10。可根据集群情况，调整到15 - 20，以减少大文件生成时的I/O压力，但需注意过大可能导致长时间的I/O阻塞。
hbase.hstore.compaction.ratio：该参数控制何时触发Major Compaction，默认值为10。表示当一个Store中所有StoreFile的总大小超过最小StoreFile大小的hbase.hstore.compaction.ratio倍时，触发Major Compaction。可适当降低至5 - 8，以便更及时地合并文件，提升读性能，但会增加I/O开销。
hbase.hstore.compaction.ratio.offpeak：用于非高峰时段的Major Compaction触发比例，可设置得比hbase.hstore.compaction.ratio更低，如3 - 5，利用低峰时段更频繁地进行合并，减少高峰时段的I/O压力。

分层Compaction算法：适合海量数据场景。它将数据按大小分层存储，不同层有不同的合并策略。底层小文件频繁合并，上层大文件合并频率低。这样能有效减少I/O开销，提高读性能，尤其适合访问频率差异大的业务，高频数据在底层小文件，能快速读取。
大小-tiered Compaction算法：把文件按大小划分不同层级，每层的文件数和大小都有上限。当某层达到上限时，将文件合并到下一层。这种算法能有效管理文件大小和数量，降低读放大，对于复杂读写负载场景有较好的适应性。

读性能提升：通过优化Compaction策略，减少文件碎片化，降低读操作时需要扫描的文件数量和大小，从而提高数据读取速度，满足对实时性要求高的业务需求。
写性能平衡：合理调整Compaction参数，在不影响写性能的前提下，适当增加合并频率，使写操作产生的小文件能及时合并，减少对后续读操作的影响。
资源合理利用：根据业务高峰低谷设置不同的Compaction策略，避免在业务高峰期进行大规模的I/O操作，充分利用集群资源，提高整体效率。

读性能指标：使用标准的性能测试工具，如HBase Benchmark，对不同业务的数据读取进行测试，记录平均响应时间、吞吐量等指标。对比调优前后的指标，评估读性能提升效果。
写性能指标：同样使用HBase Benchmark，在不同负载下进行写入测试，记录写入速度、写入成功率等指标，观察调优策略对写性能的影响。
文件碎片化指标：通过HBase的Web UI或命令行工具，查看每个Region的StoreFile数量和大小分布，评估Compaction策略对文件碎片化的改善程度。
系统资源指标：监控集群的CPU、内存、磁盘I/O等资源利用率，确保调优策略在提升性能的同时，没有过度消耗系统资源。通过对比调优前后的资源使用情况，评估策略的合理性。

知识考点