面试题：在ElasticSearch集群主节点选举过程中，网络波动对选举产生影响，如何设计监控与预防机制？

网络状态监控
- 节点间延迟监控：使用工具如 ping 或专门的网络监控工具（如 Zabbix、Prometheus + Grafana 组合），定期（例如每 1 - 5 分钟）向 ElasticSearch 集群内各节点发送 ICMP 包，测量节点间的网络延迟。若延迟超过预设阈值（如 100ms，可根据实际网络情况调整），发出警报。
- 带宽利用率监控：通过系统自带工具（如 ifconfig、sar 等）或网络监控软件，实时监测节点网络接口的带宽利用率。若带宽利用率持续高于某一阈值（如 80%），触发警报，因为高带宽占用可能导致网络拥塞，影响选举通信。
ElasticSearch 选举状态监控
- 选举日志监控：配置 ElasticSearch 日志收集工具（如 Filebeat + Logstash + Kibana），实时收集和分析选举相关日志。关注日志中与选举超时、选举失败等相关的关键字，一旦出现此类记录，立即发出警报。
- 集群状态 API 监控：定时（如每 30 秒）调用 ElasticSearch 的集群状态 API，获取当前集群状态信息。检查 master_node 字段是否频繁变更，若在短时间内（如 5 分钟内变更超过 3 次），说明选举可能异常，触发警报。同时，关注 number_of_nodes、number_of_data_nodes 等字段，确保节点数量正常，避免因节点失联导致选举异常。

网络层面
- 冗余网络配置：为每个 ElasticSearch 节点配置双网卡，接入不同的网络链路，实现网络冗余。当一条链路出现波动时，系统可以自动切换到另一条链路，保障选举通信的稳定性。
- 网络质量优化：与网络运维团队协作，优化网络拓扑，增加带宽，减少网络拥塞点。例如，对核心交换机进行升级，采用更高速的网络连接（如万兆以太网），以提高网络的整体性能和稳定性。
ElasticSearch 配置层面
- 调整选举参数：适当增加选举超时时间（discovery.zen.ping_timeout），例如从默认的 3 秒调整到 5 - 10 秒，使节点在网络波动时有更多时间完成选举流程，避免因短暂的网络延迟导致选举失败。同时，合理设置最小主节点数（discovery.zen.minimum_master_nodes），确保在网络不稳定时不会误判导致选举异常。该值一般设置为 (master_eligible_nodes / 2) + 1，其中 master_eligible_nodes 是具有主节点资格的节点数。
- 节点角色分离与合理分布：将主节点、数据节点和协调节点的角色进行分离，避免单个节点承担过多角色。同时，在部署节点时，根据网络拓扑合理分布节点，减少同一网络区域内节点的集中程度，降低因局部网络故障影响选举的风险。例如，在不同的机架、不同的机房部署主节点候选节点，提高集群的健壮性。

知识考点