面试题：如何在Hbase中根据业务需求调整布隆过滤器误判率

调整布隆过滤器误判率的方法

分析业务需求：若业务对读取性能要求极高，允许一定程度的误判（但不影响数据准确性核心指标），可适当提高误判率，以减少布隆过滤器内存占用，提升查询速度；若对数据准确性要求绝对严格，误判率需尽量降低，这可能会增加内存使用和计算开销。
计算误判率与相关参数关系：布隆过滤器误判率 f 与哈希函数个数 k、布隆过滤器位数组大小 m、插入元素个数 n 有关，公式为 f = (1 - e^(-kn/m))^k。在HBase中，一般已知预期插入数据量 n，可通过调整 m 和 k 来控制误判率。

hbase.hregion.bloom.filter.type：该参数指定布隆过滤器类型，有 ROW、ROWCOL 等选项。ROW 针对行键，ROWCOL 针对行键和列族。选择合适类型会影响布隆过滤器作用范围和误判情况。例如，如果业务主要按行读取，ROW 类型即可；若涉及行和列族组合读取，ROWCOL 更合适。
hbase.hstore.bloom.filter.policy：指定布隆过滤器策略，默认是 org.apache.hadoop.hbase.regionserver.bloom.BloomFilterFactory$DefaultBloomFilterPolicy。不同策略可能对误判率计算和应用方式有差异。
hbase.regionserver.bloom.filter.fpp：此参数直接设置布隆过滤器误判率（False Positive Probability）。通过调整该值来控制误判率，如设置为 0.01 表示误判率为1% 。