面试题：HBase Compaction专家难度面试题

1. 监控指标与工具选择

指标：
- Compaction时间：记录每次Compaction开始和结束的时间戳，计算时间差。
- 数据量变化：在Compaction前后统计相关Region或Table的数据量（通过HBase的API获取StoreFile大小等信息）。
工具：
- Prometheus + Grafana：Prometheus用于收集和存储监控数据，Grafana用于可视化展示。可以编写自定义的Exporter，利用HBase提供的JMX接口获取Compaction相关指标数据，Prometheus定期拉取这些数据。

2. 实时监控脚本编写

以Python为例，使用happybase库和prometheus_client库：

import happybase
from prometheus_client import start_http_server, Gauge
import time

# 定义Prometheus指标
compaction_time_gauge = Gauge('hbase_compaction_time_seconds', 'HBase Compaction Time')
data_size_change_gauge = Gauge('hbase_data_size_change_bytes', 'HBase Data Size Change')

def monitor_compaction():
    connection = happybase.Connection('your_hbase_host', port = 9090)
    while True:
        # 获取Compaction时间（伪代码，实际需从JMX获取准确数据）
        start_time = time.time()
        # 模拟Compaction操作
        time.sleep(5) 
        end_time = time.time()
        compaction_time = end_time - start_time
        compaction_time_gauge.set(compaction_time)

        # 获取数据量变化（伪代码，实际需计算StoreFile大小等）
        before_size = 1000
        # 模拟数据变化
        time.sleep(2) 
        after_size = 1200
        data_size_change = after_size - before_size
        data_size_change_gauge.set(data_size_change)

        time.sleep(60)

if __name__ == '__main__':
    start_http_server(8000)
    monitor_compaction()

3. 自动调整Compaction策略

策略调整依据：
- Compaction时间过长：如果平均Compaction时间超过设定阈值（如5分钟），可以适当增加MemStore大小，减少Flush次数，从而减少Compaction次数。通过修改HBase配置文件hbase-site.xml中的hbase.hregion.memstore.flush.size参数实现，然后通过HBase REST API或命令行工具（hbase shell）动态加载配置。
- 数据量变化异常：如果数据量在Compaction后变化过大（正负超过一定比例，如20%），可能是Compaction算法不合理，需要调整Compaction的文件选择策略（如修改hbase.hstore.compaction.ratio等相关参数）。同样通过修改配置文件并动态加载配置。
自动化实现：可以编写脚本（如Bash脚本），结合监控数据进行判断并调用HBase命令行工具或REST API来调整配置。

#!/bin/bash

# 获取Prometheus监控数据
compaction_time=$(curl -s http://your_prometheus_host:9090/api/v1/query?query=hbase_compaction_time_seconds | jq '.data.result[0].value[1]')
data_size_change=$(curl -s http://your_prometheus_host:9090/api/v1/query?query=hbase_data_size_change_bytes | jq '.data.result[0].value[1]')

# 判断Compaction时间
if (( $(echo "$compaction_time > 300" | bc -l) )); then
    # 增加MemStore大小
    sed -i 's/<value>.*<\/value>/<value>256m<\/value>/' hbase-site.xml
    hbase-daemon.sh restart regionserver
fi

# 判断数据量变化
if (( $(echo "$data_size_change > 0.2 * 之前数据量" | bc -l) )); then
    # 调整Compaction比例
    sed -i 's/<value>.*<\/value>/<value>10<\/value>/' hbase-site.xml
    hbase-daemon.sh restart regionserver
fi

4. 扩展性考虑

分布式监控：在大规模集群中，可部署多个Prometheus实例，每个实例负责监控部分节点，通过联邦（Federation）机制汇总数据。
动态配置：将配置参数（如阈值、策略调整规则）存储在分布式配置中心（如ZooKeeper或Apollo），便于动态修改和扩展。

5. 容错性设计

监控节点冗余：部署多个Prometheus和Grafana实例，通过负载均衡器（如Nginx）进行流量分发，当某个实例故障时，其他实例可以继续提供服务。
数据备份与恢复：Prometheus配置数据持久化存储，定期备份。如果Prometheus实例故障，可通过备份数据快速恢复。同时，在监控脚本中增加异常处理机制，当与HBase或Prometheus连接失败时，进行重试操作。

import happybase
from prometheus_client import start_http_server, Gauge
import time

# 定义Prometheus指标
compaction_time_gauge = Gauge('hbase_compaction_time_seconds', 'HBase Compaction Time')
data_size_change_gauge = Gauge('hbase_data_size_change_bytes', 'HBase Data Size Change')

def monitor_compaction():
    max_retries = 3
    while True:
        retries = 0
        while retries < max_retries:
            try:
                connection = happybase.Connection('your_hbase_host', port = 9090)
                break
            except Exception as e:
                print(f"连接HBase失败，重试 {retries + 1}/{max_retries}: {e}")
                retries += 1
                time.sleep(5)
        if retries == max_retries:
            print("无法连接HBase，放弃本次监控")
            continue

        # 获取Compaction时间（伪代码，实际需从JMX获取准确数据）
        start_time = time.time()
        # 模拟Compaction操作
        time.sleep(5) 
        end_time = time.time()
        compaction_time = end_time - start_time
        compaction_time_gauge.set(compaction_time)

        # 获取数据量变化（伪代码，实际需计算StoreFile大小等）
        before_size = 1000
        # 模拟数据变化
        time.sleep(2) 
        after_size = 1200
        data_size_change = after_size - before_size
        data_size_change_gauge.set(data_size_change)

        connection.close()
        time.sleep(60)

if __name__ == '__main__':
    start_http_server(8000)
    monitor_compaction()

面试题：HBase Compaction专家难度面试题

知识考点

面试题答案

1. 监控指标与工具选择

2. 实时监控脚本编写

3. 自动调整Compaction策略

4. 扩展性考虑

5. 容错性设计