面试题：ElasticSearch集群健康状态为黄色时的异常处理流程

检查集群状态信息：
- 使用GET _cluster/health API获取集群健康详细信息，查看unassigned_shards字段，了解未分配分片的具体数量等信息。
- GET _cluster/allocation/explain API 可详细解释分片为何未分配，该API返回的信息包括索引、分片ID、原因等。例如，可能原因有节点磁盘空间不足、节点负载过高、网络问题等。
查看节点状态：
- 通过GET _cat/nodes查看各个节点的状态，关注节点的磁盘使用情况（disk.indices.pct等指标），如果磁盘空间使用率过高，可能导致分片无法分配。
- 查看节点的CPU、内存使用情况，高负载可能影响分片分配。
检查网络配置：
- 确保节点之间网络畅通，可通过ping命令或其他网络工具检查节点间的连通性。
- 确认防火墙配置没有阻止Elasticsearch节点间通信的端口（如9200、9300等）。

增加节点资源：
- 如果是磁盘空间不足，可清理节点磁盘上不必要的文件，或者增加磁盘空间。
- 对于CPU或内存负载过高的节点，可优化节点上运行的其他程序，释放资源，或增加节点的CPU、内存等硬件资源。
调整分片分配策略：
- 可以通过动态设置cluster.routing.allocation.disk.threshold_enabled为false临时忽略磁盘空间限制，允许分片分配（但这不是长期解决方案，可能导致后续问题，使用后需及时调整回来）。
- 使用PUT _cluster/settings API调整分片分配相关设置，例如设置cluster.routing.allocation.total_shards_per_node来限制每个节点上允许分配的分片总数，合理分配分片。
重启相关节点：
- 在确认其他问题已排查后，可尝试重启未分配分片所在的相关节点。这可能解决一些临时性的内部状态异常问题，但重启节点会有短暂的服务中断，需谨慎操作。
重新分配分片：
- 使用POST _cluster/reroute API手动重新分配未分配的分片。例如，POST _cluster/reroute 加上retry_failed参数，可尝试重新分配失败的分片。

知识考点