星途面试题库

面试题：HBase集成MapReduce时，Mapper类通常需要处理哪些关键步骤？

在HBase与MapReduce集成场景下，简述Mapper类从获取HBase数据到输出中间结果的主要处理流程，包括数据读取、转换等相关操作。

48.6万热度

难度

数据库Hbase

知识考点

AI 面试

面试题答案

配置HBase输入格式：
- 在MapReduce作业配置中，设置输入格式为TableInputFormat，该格式用于从HBase表中读取数据。例如：
```
job.setInputFormatClass(TableInputFormat.class);
```
设置扫描器：
- 创建一个Scan对象，通过它来定义从HBase表中读取数据的范围和条件。可以设置起始行键、结束行键、列族、列限定符等。例如：
```
Scan scan = new Scan();
scan.addFamily(Bytes.toBytes("cf"));
scan.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("col"));
TableInputFormat.setScan(job, scan);
```

Mapper类读取数据：

Mapper类的输入键类型通常为ImmutableBytesWritable，代表HBase中的行键；值类型为Result，包含该行的所有列数据。在map方法中，通过Result对象获取具体的单元格数据。例如：

public class HBaseMapper extends Mapper<ImmutableBytesWritable, Result, Text, IntWritable>{
    @Override
    protected void map(ImmutableBytesWritable key, Result value, Context context) throws IOException, InterruptedException {
        byte[] val = value.getValue(Bytes.toBytes("cf"), Bytes.toBytes("col"));
        String data = Bytes.toString(val);
        // 这里data就是从HBase中读取到的列数据
    }
}

数据转换：
- 根据业务需求对读取到的数据进行转换。例如，如果读取到的是字符串形式的数字，可能需要转换为int或double类型进行后续计算。
- 可以进行数据清洗，比如去除无效字符、处理缺失值等。
输出中间结果：
- Mapper类的输出键值对类型根据业务需求定义。使用Context对象将转换后的数据输出为中间结果。例如：
```
context.write(new Text("key"), new IntWritable(1));
```
- 这里将处理后的数据以键值对的形式输出，后续会由MapReduce框架进一步处理。