面试题：HBase 与 MapReduce 集成时，如何优化自定义处理的性能

行键设计优化
- 优化措施：设计行键时，尽量让相关数据在物理存储上相邻。例如，对于时间序列数据，按时间倒序作为行键前缀。
- 针对瓶颈：减少数据读取时的随机 I/O，因为 HBase 按行键顺序存储数据，合理的行键设计能使同一查询范围内的数据集中存储，提高顺序 I/O 效率。
批量读取
- 优化措施：使用 ResultScanner 的批量读取功能，每次读取多个行数据。
- 针对瓶颈：减少客户端与 HBase 服务器的交互次数，降低网络开销，提升数据读取速度。
过滤器使用
- 优化措施：在读取数据时，使用 HBase 提供的过滤器（如 SingleColumnValueFilter、RowFilter 等）提前过滤掉不需要的数据。
- 针对瓶颈：减少从 HBase 读取到 MapReduce 中的数据量，降低后续 Map 和 Reduce 阶段的处理压力。

Map 任务并行度调整
- 优化措施：根据数据量和集群资源合理设置 Map 任务数量。一般来说，可以通过调整 mapreduce.input.fileinputformat.split.maxsize 和 mapreduce.input.fileinputformat.split.minsize 参数来控制每个 Map 任务处理的数据量。
- 针对瓶颈：避免 Map 任务数量过多导致资源竞争激烈，或任务数量过少使部分节点资源闲置，提高集群资源利用率和处理速度。
本地计算优化
- 优化措施：在 Map 函数中尽量执行本地计算，减少数据传输。例如，对数据进行简单的聚合或转换操作在 Map 阶段完成。
- 针对瓶颈：减少 Map 到 Reduce 阶段的数据传输量，降低网络带宽压力，提高整体处理效率。
数据类型优化
- 优化措施：使用合适的数据类型，避免不必要的类型转换。例如，对于数值型数据，使用基本数据类型而非包装类。
- 针对瓶颈：减少内存占用和处理时间，提升 Map 函数的执行效率。

Reduce 任务并行度调整
- 优化措施：根据数据量和计算复杂度合理设置 Reduce 任务数量。可通过 mapreduce.job.reduces 参数进行设置。
- 针对瓶颈：防止 Reduce 任务数量过多造成资源竞争，或任务过少导致处理时间过长，提高处理效率和资源利用率。
数据预聚合
- 优化措施：在 Map 阶段进行部分聚合操作（如使用 Combiner），减少传输到 Reduce 阶段的数据量。
- 针对瓶颈：降低网络传输压力和 Reduce 阶段的处理数据量，提升整体性能。
Reduce 端内存优化
- 优化措施：合理调整 mapreduce.reduce.memory.mb 和 mapreduce.reduce.java.opts 参数，为 Reduce 任务分配合适的内存。
- 针对瓶颈：避免因内存不足导致频繁的磁盘 I/O，提高 Reduce 任务的执行效率。

输出格式优化
- 优化措施：选择合适的输出格式，如 SequenceFile 用于后续 MapReduce 任务输入，TextOutputFormat 用于人类可读的文本输出。如果需要与其他系统交互，选择相应高效的格式。
- 针对瓶颈：提高数据存储和传输效率，便于后续处理或查看。
输出位置优化
- 优化措施：将结果输出到合适的存储位置，如 HDFS 上合适的目录结构，避免集中写入一个目录导致 I/O 瓶颈。
- 针对瓶颈：提高数据写入效率，防止因存储位置不合理造成的性能问题。

知识考点