面试题：HBase 上 MapReduce 数据源性能调优策略

合理设置列族
- 尽量减少列族数量，过多列族会增加 HBase 管理负担。因为每个列族在底层存储时对应一个 HFile，过多列族会导致文件数量增加，影响 I/O 性能。例如，将经常一起读取和写入的列放在同一个列族中。
RowKey 设计
- 散列分布：设计 RowKey 使其在 HBase 集群中均匀分布，避免热点问题。比如可以在 RowKey 前添加随机前缀，像对于用户 ID 为 12345 的数据，可将 RowKey 设计为 randomPrefix_12345，其中 randomPrefix 是一个随机生成的短字符串，这样可以将数据分散到不同的 Region 上。
- 基于访问模式：如果数据按时间顺序访问频繁，可以将时间戳作为 RowKey 的一部分且放在靠前位置，方便范围查询。例如对于日志数据，RowKey 可以设计为 timestamp_logType_logId。
预分区 根据数据的预期分布，提前对表进行分区。比如已知数据按某个范围分布，可以使用 HexStringSplit 等预分区算法，按照特定规则将数据预先划分到不同的 Region 中，避免在运行过程中由于数据倾斜导致某个 Region 负载过高。

Map 端参数
- mapreduce.map.memory.mb：根据节点内存情况合理设置 Map 任务的内存大小。如果内存过小，可能导致任务频繁 GC 影响性能；内存过大则可能浪费资源或导致节点内存不足。例如，在内存充足的节点上，可适当增大此值，如设置为 4096（4GB）。
- mapreduce.map.java.opts：调整 Map 任务 JVM 的启动参数，如增加堆内存大小 -Xmx3072m（3GB），以适应任务处理的数据量，减少 GC 次数。
Reduce 端参数
- mapreduce.reduce.memory.mb：类似 Map 端，合理设置 Reduce 任务的内存大小。比如根据任务的计算复杂度和数据量，设置为 6144（6GB）。
- mapreduce.reduce.java.opts：同样调整 Reduce 任务 JVM 的启动参数，例如 -Xmx5120m（5GB），优化 Reduce 任务的执行性能。
其他参数
- mapreduce.task.io.sort.mb：设置 Map 任务排序阶段的内存缓冲区大小，可适当增大以提高排序效率，比如设置为 256（256MB）。
- mapreduce.job.reduce.slowstart.completedmaps：控制 Reduce 任务在 Map 任务完成多少比例后开始启动，如设置为 0.8，即 Map 任务完成 80%后启动 Reduce 任务，平衡 Map 和 Reduce 任务的执行时间。

知识考点