面试题：ElasticSearch Allocation IDs标记分配陈旧策略的优化与调优

1. 深入理解 Allocation IDs 标记分配陈旧策略

策略原理：了解 Elasticsearch 如何使用 Allocation IDs 标记分片分配的陈旧性，以及它在高并发读写场景下影响数据写入延迟的机制。这是因为当集群状态变化时，节点对分配状态的认知可能存在差异，陈旧的分配标记可能导致不必要的分片迁移或等待，进而影响写入。

2. 配置参数优化

2.1 `cluster.routing.allocation.disk.threshold_enabled`

说明：此参数控制是否启用磁盘阈值相关的分片分配决策。在高并发写入场景下，如果磁盘使用情况频繁变化，不合理的磁盘阈值检查可能导致分配决策不稳定，进而影响写入。
改进方案：根据实际磁盘使用情况和集群性能，合理调整磁盘阈值。例如，若写入节点磁盘使用率长期维持在 70%以下且性能稳定，可适当提高 cluster.routing.allocation.disk.watermark.high （默认为 85%）和 cluster.routing.allocation.disk.watermark.flood_stage （默认为 95%）的值，减少因磁盘阈值触发的不必要分片迁移。示例配置如下：

cluster.routing.allocation.disk.threshold_enabled: true
cluster.routing.allocation.disk.watermark.high: 90%
cluster.routing.allocation.disk.watermark.flood_stage: 98%

2.2 `cluster.routing.allocation.node_concurrent_recoveries`

说明：该参数限制每个节点上并发恢复的分片数量。在高并发写入时，过多的并发恢复操作会占用大量资源，如网络带宽、磁盘 I/O 等，从而影响新数据的写入。
改进方案：根据节点的硬件资源（如 CPU、内存、网络带宽、磁盘 I/O 能力等）来调整此参数。如果节点配置较高，可适当增加该值以加快恢复速度，但不宜过高以免过度消耗资源。例如，对于配置较高的节点，可将其从默认的 2 调整为 4 ：

cluster.routing.allocation.node_concurrent_recoveries: 4

2.3 `cluster.routing.allocation.enable`

说明：此参数用于控制分片分配的行为，有 all（默认）、primaries、new_primaries 和 none 四个取值。在高并发写入场景下，若集群状态频繁变化，可能导致不必要的分片分配，影响写入性能。
改进方案：在写入高峰期，可以临时将其设置为 primaries，只允许主分片的分配，减少因副本分片分配带来的资源消耗和潜在的写入延迟。例如：

cluster.routing.allocation.enable: primaries

在写入压力缓解后，再恢复为 all。

3. 集群架构和节点优化

3.1 节点资源评估与调整

说明：高并发读写场景对节点的 CPU、内存、磁盘 I/O 和网络带宽等资源要求较高。如果资源不足，会导致分配决策延迟以及数据写入缓慢。
改进方案：通过监控工具（如 Elasticsearch 自带的监控 API、Prometheus + Grafana 等）评估节点资源使用情况。若 CPU 使用率长期过高，可考虑增加节点数量或升级节点 CPU；若内存不足，可适当增加 JVM 堆内存大小，但要注意避免内存溢出问题。对于磁盘 I/O 瓶颈，可考虑使用 SSD 磁盘替换传统机械硬盘，或增加磁盘数量以分散 I/O 负载。同时，确保网络带宽充足，避免网络拥塞。

3.2 合理规划分片和副本数量

说明：过多的分片和副本会增加分配决策的复杂度和资源消耗，尤其是在高并发写入时，可能导致数据写入延迟。
改进方案：根据数据量大小、读写负载和节点数量合理规划分片和副本数量。一般来说，每个分片大小建议控制在 10GB - 50GB 之间。对于高并发写入场景，可适当减少副本数量，如将副本数从默认的 1 减少为 0 ，在写入完成后再恢复副本数量。示例索引创建语句如下：

PUT my_index
{
    "settings": {
        "number_of_shards": 5,
        "number_of_replicas": 0
    }
}

4. 数据写入优化

4.1 批量写入

说明：单个文档的写入请求会带来额外的网络开销和分配决策次数，在高并发场景下，这会显著增加写入延迟。
改进方案：使用批量写入 API（如 bulk API），将多个写入请求合并为一个请求发送到 Elasticsearch 集群。这样可以减少网络请求次数，提高写入效率。例如，在 Python 中使用 Elasticsearch 客户端进行批量写入：

from elasticsearch import Elasticsearch, helpers

es = Elasticsearch()
actions = [
    {
        "_index": "my_index",
        "_id": 1,
        "_source": {"field1": "value1"}
    },
    {
        "_index": "my_index",
        "_id": 2,
        "_source": {"field1": "value2"}
    }
]
helpers.bulk(es, actions)

4.2 写入队列和缓冲区优化

说明：Elasticsearch 内部有写入队列和缓冲区，合理调整这些参数可以提高写入性能。如果队列长度过小，可能导致写入请求被阻塞；缓冲区过小，可能频繁触发 flush 操作，影响写入效率。
改进方案：调整 index.translog.durability 参数，在保证数据持久性的前提下，提高写入性能。例如，将其设置为 async，并适当增加 index.translog.sync_interval 的值，这样可以减少频繁的同步操作，提高写入效率，但会增加数据丢失的风险。示例配置如下：

index.translog.durability: async
index.translog.sync_interval: 5s

同时，可以根据节点内存情况适当增加 index.buffer_size 和 index.memory.index_buffer_size 的值，减少因缓冲区满而触发的 flush 操作。

5. 监控与调优循环

说明：优化是一个持续的过程，尤其是在高并发读写的动态环境中，需要不断监控和调整配置。
改进方案：建立完善的监控体系，实时监控 Elasticsearch 集群的各项指标，如写入延迟、分配决策次数、资源使用率等。根据监控数据及时调整上述配置参数，逐步优化集群性能，以适应高并发读写的需求。例如，通过定期分析监控数据，发现某个时间段内写入延迟突然增加，可结合当时的集群状态和配置参数变化，确定是否需要进一步调整 cluster.routing.allocation 相关参数或其他优化措施。

面试题：ElasticSearch Allocation IDs标记分配陈旧策略的优化与调优

知识考点

面试题答案

1. 深入理解 Allocation IDs 标记分配陈旧策略

2. 配置参数优化

2.1 `cluster.routing.allocation.disk.threshold_enabled`

2.2 `cluster.routing.allocation.node_concurrent_recoveries`

2.3 `cluster.routing.allocation.enable`

3. 集群架构和节点优化

3.1 节点资源评估与调整

3.2 合理规划分片和副本数量

4. 数据写入优化

4.1 批量写入

4.2 写入队列和缓冲区优化

5. 监控与调优循环

面试题：ElasticSearch Allocation IDs标记分配陈旧策略的优化与调优

知识考点

面试题答案

1. 深入理解 Allocation IDs 标记分配陈旧策略

2. 配置参数优化

2.1 cluster.routing.allocation.disk.threshold_enabled

2.2 cluster.routing.allocation.node_concurrent_recoveries

2.3 cluster.routing.allocation.enable

3. 集群架构和节点优化

3.1 节点资源评估与调整

3.2 合理规划分片和副本数量

4. 数据写入优化

4.1 批量写入

4.2 写入队列和缓冲区优化

5. 监控与调优循环

2.1 `cluster.routing.allocation.disk.threshold_enabled`

2.2 `cluster.routing.allocation.node_concurrent_recoveries`

2.3 `cluster.routing.allocation.enable`