面试题：HBase表拆分后，MapReduce在处理数据倾斜问题上有哪些挑战与应对策略

Region分布不均：HBase表拆分后，新生成的Region可能在数据量、数据范围等方面不均衡，导致某些Region数据量远大于其他Region。例如，时间序列数据按时间戳拆分时，业务高峰期数据集中，使对应Region数据量庞大。
数据特性：数据本身具有倾斜性，某些特定的键值对（如热门商品ID、热门用户ID等）出现频率极高，导致MapReduce作业中以这些键为基础的处理过程负载不均衡。

任务执行时间延长：数据量多的Region对应的Map或Reduce任务处理时间长，拖慢整个作业的执行进度。比如大数据量的Region可能需要数小时处理，而小数据量Region仅需几分钟。
资源利用率低：大部分计算资源集中在处理倾斜数据的任务上，其他任务因分配资源少而处于等待状态，集群整体资源利用率下降。
作业稳定性差：处理大数据量Region的任务可能因内存不足、磁盘I/O瓶颈等问题失败，导致作业重试，影响作业稳定性。

预拆分策略
- 优点：提前规划Region分布，使数据均匀分布在各个Region，从源头上减轻数据倾斜问题。比如，在创建HBase表时，根据数据特征预先定义合适的拆分点，能让后续数据写入时均匀分布。
- 缺点：需要对数据有深入了解才能准确设置拆分点，如果拆分点设置不合理，仍可能出现数据倾斜。而且对于动态变化的数据，难以根据新数据特性实时调整拆分点。
使用Combiner函数
- 优点：在Map端对数据进行局部聚合，减少传输到Reduce端的数据量，降低数据倾斜对Reduce端的影响。例如，在统计词频任务中，Map端先对本地数据统计词频，再将结果传递给Reduce端，减少网络传输压力和Reduce端处理量。
- 缺点：并非所有计算都适合使用Combiner，如求平均值操作，因为局部平均值之和不等于全局平均值，限制了其适用场景。
加盐（Salting）策略
- 优点：在键值前添加随机前缀（盐值），打散原本集中的键，使数据均匀分布到不同Region，缓解数据倾斜。例如，对热门商品ID前加0 - 9的随机数，让相同商品ID的数据分散在不同地方处理。
- 缺点：增加了数据处理的复杂性，后续如需还原原始键值，需要额外的处理步骤。同时，随机前缀可能导致数据局部性变差，增加网络I/O开销。

知识考点