面试题：ElasticSearch中Master节点常见异常有哪些及相应恢复策略

常见Master节点异常及恢复策略

网络隔离
- 异常描述：Master节点由于网络问题，与集群中的其他节点失去连接。
- 恢复策略：
  - 检查网络设备（如交换机、路由器）的配置和连接状态，确保网络线路正常。
  - 查看Master节点和其他节点的网络设置，确认IP地址、子网掩码、网关等配置正确。
  - 若存在防火墙，检查防火墙规则，确保ElasticSearch集群节点间通信端口（如9300）开放。
资源耗尽
- 异常描述：Master节点因内存、CPU等资源使用达到极限，导致性能下降甚至无响应。
- 恢复策略：
  - 增加Master节点的硬件资源，如扩充内存、升级CPU等。
  - 优化ElasticSearch配置，调整堆内存大小（ES_HEAP_SIZE），避免内存溢出。同时，减少不必要的索引和分片，降低Master节点的管理负担。
  - 监控Master节点的资源使用情况，设置合理的资源告警阈值，及时发现并处理资源紧张问题。
脑裂
- 异常描述：集群中出现多个Master节点，导致数据不一致和集群状态混乱。
- 恢复策略：
  - 调整discovery.zen.minimum_master_nodes参数，设置合适的值，通常为（候选Master节点数 / 2） + 1 ，以避免脑裂发生。
  - 重启集群，确保所有节点同时启动，让选举机制选出唯一的Master节点。在重启前，备份重要数据以防丢失。
  - 若脑裂已经发生，手动剔除多余的Master节点，使集群恢复到单Master状态。可以通过修改节点配置文件，将多余Master节点的node.master属性设置为false，然后重启这些节点。
数据损坏
- 异常描述：Master节点存储的元数据或其他关键数据损坏，影响集群正常运行。
- 恢复策略：
  - 使用ElasticSearch的快照和恢复功能，从最近的快照中恢复数据。确保快照定期创建且存储在可靠的位置。
  - 如果快照不可用，可以尝试从其他健康节点复制数据。但这种方法可能需要复杂的手动操作，且可能无法完全恢复到损坏前的状态。
  - 若数据损坏严重且无法恢复，考虑重建集群，重新索引数据。在重建前，确保数据有完整的备份。

面试题：ElasticSearch中Master节点常见异常有哪些及相应恢复策略

知识考点

面试题答案

常见Master节点异常及恢复策略