面试题：HBase中MapReduce批处理的基础实现步骤

1. 配置相关环境

安装Hadoop和HBase：确保Hadoop和HBase已正确安装且集群运行正常。Hadoop提供了MapReduce运行的基础环境，HBase作为数据存储。
添加依赖：在项目的构建文件（如Maven的pom.xml）中添加Hadoop和HBase相关依赖。例如：

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop - client</artifactId>
    <version>[hadoop版本号]</version>
</dependency>
<dependency>
    <groupId>org.apache.hbase</groupId>
    <artifactId>hbase - client</artifactId>
    <version>[hbase版本号]</version>
</dependency>
<dependency>
    <groupId>org.apache.hbase</groupId>
    <artifactId>hbase - mapreduce</artifactId>
    <version>[hbase版本号]</version>
</dependency>

设置Hadoop和HBase配置：在代码中，通过Configuration对象设置Hadoop和HBase的配置信息，例如：

Configuration conf = HBaseConfiguration.create();
conf.set("hbase.zookeeper.quorum", "zk1.example.com,zk2.example.com,zk3.example.com");
conf.set("hbase.zookeeper.property.clientPort", "2181");

2. 定义Mapper类

继承Mapper类：Mapper类需要继承TableMapper（适用于HBase数据作为输入）。例如：

import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;

public class MyHBaseMapper extends TableMapper<Text, Text> {
    @Override
    protected void map(ImmutableBytesWritable key, Result value, Context context) throws IOException, InterruptedException {
        // 从Result对象中获取数据
        byte[] family = "cf".getBytes();
        byte[] qualifier = "col".getBytes();
        byte[] valueBytes = value.getValue(family, qualifier);
        if (valueBytes != null) {
            String data = new String(valueBytes);
            context.write(new Text(key.toString()), new Text(data));
        }
    }
}

实现map方法：在map方法中，从Result对象（代表HBase中的一行数据）中提取所需数据，并将其转换为合适的输出键值对格式，然后通过Context对象写出。

3. 定义Reducer类

继承Reducer类：Reducer类继承Reducer类。例如：

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

public class MyHBaseReducer extends Reducer<Text, Text, Text, Text> {
    @Override
    protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        // 处理相同键的值
        StringBuilder result = new StringBuilder();
        for (Text value : values) {
            result.append(value.toString()).append(",");
        }
        context.write(key, new Text(result.toString()));
    }
}

实现reduce方法：在reduce方法中，对相同键的多个值进行聚合或其他处理，并将结果通过Context对象写出。

4. 提交作业

创建Job对象：通过Job.getInstance(conf, "HBase MapReduce Job")创建一个Job对象，其中conf是前面配置的Configuration对象。

Job job = Job.getInstance(conf, "HBase MapReduce Job");

设置作业相关属性：
- 设置Mapper和Reducer类：job.setMapperClass(MyHBaseMapper.class); job.setReducerClass(MyHBaseReducer.class);
- 设置输出键值对类型：job.setOutputKeyClass(Text.class); job.setOutputValueClass(Text.class);
- 设置输入格式为HBase表输入格式：job.setInputFormatClass(TableInputFormat.class);
- 设置要处理的HBase表：TableMapReduceUtil.initTableMapperJob("my_table", scan, MyHBaseMapper.class, Text.class, Text.class, job);，其中scan可以是自定义的Scan对象，用于指定扫描条件。
提交作业并等待完成：

if (job.waitForCompletion(true)) {
    System.out.println("Job completed successfully");
} else {
    System.out.println("Job failed");
}

通过以上步骤，就可以在HBase中实现MapReduce批处理作业。

面试题：HBase中MapReduce批处理的基础实现步骤

知识考点

面试题答案

1. 配置相关环境

2. 定义Mapper类

3. 定义Reducer类

4. 提交作业