面试题：消息队列 Kafka 开发中，如何动态创建主题（Topic）并设置合理的分区数和副本因子？

动态创建主题的具体操作方式

使用 Kafka 命令行工具：
- 在 Kafka 安装目录下，通过 kafka-topics.sh 脚本创建主题。例如：
```
bin/kafka-topics.sh --create --bootstrap-server <bootstrap - server - list> --replication - factor <副本因子> --partitions <分区数> --topic <主题名称>
```
- 其中 <bootstrap - server - list> 是 Kafka 集群的地址和端口，如 localhost:9092；<副本因子> 表示每个分区的副本数量；<分区数> 是主题包含的分区数量；<主题名称> 为要创建的主题名。

使用 Kafka 客户端 API：

以 Java 为例，使用 AdminClient 来动态创建主题。

import org.apache.kafka.clients.admin.AdminClient;
import org.apache.kafka.clients.admin.AdminClientConfig;
import org.apache.kafka.clients.admin.NewTopic;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Properties;
import java.util.concurrent.ExecutionException;

public class TopicCreator {
    public static void main(String[] args) throws ExecutionException, InterruptedException {
        String bootstrapServers = "localhost:9092";
        Properties props = new Properties();
        props.put(AdminClientConfig.BOOTSTRAP_SERVERS_CONFIG, bootstrapServers);
        AdminClient adminClient = AdminClient.create(props);

        List<NewTopic> newTopics = new ArrayList<>();
        NewTopic topic = new NewTopic("new - topic", 3, (short) 2);
        newTopics.add(topic);

        adminClient.createTopics(newTopics).all().get();
        adminClient.close();
    }
}

这里创建了一个名为 new - topic，有 3 个分区，副本因子为 2 的主题。

分区数和副本因子对主题性能和数据可靠性的影响

分区数的影响：
- 性能方面：
  - 分区数增加可以提高 Kafka 集群的并行处理能力。多个分区可以分布在不同的 Broker 节点上，生产者可以并行地向不同分区写入数据，消费者可以并行地从不同分区读取数据，从而提升整体的吞吐量。例如，在高流量的日志收集场景中，较多的分区可以使数据更快地写入和读取。
  - 然而，过多的分区也会带来一些问题。每个分区都需要占用一定的系统资源（如文件句柄、内存等），过多的分区会导致资源消耗过大，同时分区之间的切换也会带来额外的开销，反而降低性能。
- 数据可靠性方面：分区数本身并不直接影响数据可靠性，它主要影响数据的分布和并行处理能力。
副本因子的影响：
- 性能方面：副本因子增加会增加数据的冗余存储，在数据写入时，需要将数据同步到多个副本，这会增加网络和磁盘 I/O 开销，从而降低写入性能。例如，副本因子从 1 增加到 3，写入数据时需要同步到另外两个副本节点，写入速度会变慢。
- 数据可靠性方面：副本因子提高可以提升数据的可靠性。当某个 Broker 节点发生故障时，其他副本可以继续提供服务，保证数据不丢失。例如，副本因子为 3，若一个副本所在的 Broker 节点故障，另外两个副本仍可正常工作。

依据业务场景合理设置这两个参数

分区数的设置：
- 高吞吐量场景：如果业务场景需要处理大量的数据流，如实时数据处理、日志收集等，应适当增加分区数。可以根据预估的流量和单个分区的处理能力来计算分区数。例如，单个分区每秒能处理 1000 条消息，预估每秒有 10000 条消息进入系统，则至少需要 10 个分区。同时，要考虑 Broker 节点的资源情况，避免分区数过多导致资源耗尽。
- 低延迟场景：对于对延迟敏感的业务，如实时监控报警等，分区数不宜过多。过多的分区可能导致消息在不同分区之间的调度延迟增加。可以根据业务允许的最大延迟时间和 Kafka 集群的处理能力来确定分区数，一般设置相对较少的分区，以减少调度开销。
副本因子的设置：
- 对数据可靠性要求极高的场景：如金融交易数据存储等场景，应设置较高的副本因子，如 3 或 5。虽然会降低写入性能，但能极大地保证数据的可靠性，即使多个 Broker 节点发生故障，数据依然不会丢失。
- 对成本敏感且数据可靠性要求相对较低的场景：如一些临时数据的存储，副本因子可以设置为 1 或 2。这样可以在一定程度上保证数据可靠性，同时减少存储开销和性能损耗。

星途面试题库

面试题：消息队列 Kafka 开发中，如何动态创建主题（Topic）并设置合理的分区数和副本因子？

知识考点

面试题答案

动态创建主题的具体操作方式

分区数和副本因子对主题性能和数据可靠性的影响

依据业务场景合理设置这两个参数