面试题：ElasticSearch集群健康状态预警机制中常见指标及判断逻辑

核心指标

集群状态（cluster state）
- 含义：ElasticSearch 集群有三种状态，即 green（绿色）、yellow（黄色）、red（红色）。绿色表示所有的主分片和副本分片都已分配；黄色表示所有主分片均已分配，但部分副本分片未分配；红色表示存在未分配的主分片，此时集群部分数据不可用。
- 判断逻辑：当集群状态变为 yellow 时，虽然数据仍然可用，但意味着副本分片不足，在节点故障等情况下数据的高可用性会受到威胁，可根据业务需求决定是否触发预警，比如在对数据高可用性要求极高的场景下，yellow 状态就可触发预警。当状态变为 red 时，必须触发预警，因为已经有主分片未分配，部分数据不可用，严重影响业务。
节点状态（node state）
- 含义：节点的运行状态，包括节点是否存活、资源使用情况（如 CPU、内存、磁盘等）。
- 判断逻辑：如果有节点失联（通过心跳机制检测），说明集群可能存在故障，应触发预警。同时，当节点的 CPU 使用率持续超过设定阈值（如 80%），表明节点处理能力可能不足，影响集群整体性能，可触发预警；内存使用率过高（如超过 90%），可能导致节点 OOM（Out - Of - Memory），也需预警；磁盘空间不足（如剩余空间小于 10%），可能影响数据的写入，同样要触发预警。
分片分配情况（shard allocation）
- 含义：包括分片是否均匀分配在各个节点上，以及未分配分片的数量和原因。
- 判断逻辑：如果分片分配极度不均匀，某些节点承载过多分片，而其他节点负载较轻，可能导致部分节点性能瓶颈，此时可触发预警。大量未分配分片（如超过一定数量，具体根据集群规模而定，例如对于一个小规模集群超过 5 个未分配分片）表明集群在资源分配或节点状态方面存在问题，需要触发预警以排查原因。
索引健康（index health）
- 含义：每个索引也有类似集群的绿色、黄色、红色状态，反映该索引内主分片和副本分片的分配情况。
- 判断逻辑：当某个重要索引（根据业务定义）的状态变为 yellow 或 red 时，触发预警。即使集群整体状态为 green，但某个关键业务索引不健康，也会影响相关业务功能。
集群负载（cluster load）
- 含义：包括集群每秒的文档索引数、搜索请求数等操作的速率。
- 判断逻辑：如果索引速率或搜索请求速率突然大幅增加，超过集群正常承载能力（可通过历史数据和性能测试设定阈值），可能导致集群性能下降甚至崩溃，此时应触发预警，以便及时采取措施，如增加节点或优化查询。

触发预警逻辑总结

基于阈值：对于如节点资源使用率（CPU、内存、磁盘）、集群负载等指标，设定明确的阈值，当指标值超过阈值时触发预警。
基于状态变化：集群状态、节点状态、索引状态发生特定变化，如从 green 变为 yellow 或 red，节点从存活变为失联，索引从健康变为不健康等，触发预警。
基于数量异常：未分配分片数量、异常索引数量等超过一定数量，触发预警。通过综合监控这些核心指标及其变化，及时发现 ElasticSearch 集群健康状态不佳的情况并触发预警，保障集群稳定运行。

面试题：ElasticSearch集群健康状态预警机制中常见指标及判断逻辑

知识考点

面试题答案

核心指标

触发预警逻辑总结