面试题：ElasticSearch集群扩容引发的性能抖动问题分析与优化

分片重新分配：扩容时，Elasticsearch会自动将分片从旧节点迁移到新节点，这一过程会占用网络和磁盘I/O资源，导致集群性能下降。
索引重建：部分配置或数据结构的调整可能触发索引重建，重建索引会消耗大量的CPU和内存资源。
缓存失效：扩容后，节点的缓存（如field data cache、filter cache等）可能会失效，导致后续查询需要重新计算和加载数据，增加查询响应时间。
资源竞争：新节点加入后，可能会与原有节点竞争集群资源，如网络带宽、磁盘I/O、CPU和内存等，导致整体性能下降。
配置调整：扩容过程中对集群配置（如分片数量、副本数量、线程池大小等）的修改，若不合理，可能影响集群性能。

Elasticsearch内置监控：使用_cat API（如/_cat/nodes、/_cat/shards等）获取集群节点、分片等基础信息；通过/_stats API获取节点和索引级别的统计信息，包括CPU、内存、磁盘I/O、网络等使用情况。
Kibana监控：Kibana提供了可视化的监控界面，通过安装Elasticsearch监控插件，可以直观地查看集群健康状况、节点指标、索引性能等信息，便于实时发现性能问题。
Prometheus + Grafana：使用Prometheus采集Elasticsearch的指标数据（通过Elasticsearch Exporter），然后在Grafana中进行可视化展示和告警配置。可以自定义监控面板，关注关键指标如CPU使用率、内存使用率、磁盘I/O吞吐量、查询响应时间等。

优化分片分配策略：可以通过设置cluster.routing.allocation.balance.shard参数来调整分片分配的速度，避免分片在短时间内大量迁移，减少对性能的影响。同时，合理规划每个节点的分片数量，避免单个节点负载过高。
预热缓存：在扩容完成后，手动预热缓存，例如重新执行一些频繁查询，让缓存重新加载数据，提高后续查询性能。可以使用_cache/clear API清除缓存后进行预热。
调整资源配置：根据监控数据，合理调整节点的资源分配，如增加内存、CPU核心数，优化磁盘I/O（使用SSD等高性能存储设备）。同时，调整Elasticsearch的线程池配置，如search、index线程池大小，以适应扩容后的负载。
优化索引结构：检查和优化索引的映射（mapping），避免不必要的字段索引和存储，减少索引大小。定期对索引进行优化（如_optimize API），合并小的分片，提高查询性能。
测试与验证：在生产环境扩容前，在测试环境进行模拟扩容测试，观察性能变化，调整优化方案。扩容完成后，进行性能回归测试，确保集群性能满足业务需求。

工具：
- Elasticsearch自带的API：用于获取监控信息、执行管理操作等。
- Kibana：用于可视化监控和管理Elasticsearch集群。
- Prometheus：开源的监控系统，用于采集和存储Elasticsearch指标数据。
- Grafana：数据可视化工具，与Prometheus结合使用，展示监控数据并设置告警。
- Elasticsearch Exporter：用于将Elasticsearch指标数据暴露给Prometheus。
技术手段：
- 配置参数调整：通过修改Elasticsearch的配置文件或使用动态配置API，调整分片分配策略、缓存设置、线程池大小等参数。
- 索引优化：使用Elasticsearch提供的API对索引进行重建、优化等操作，提高索引性能。
- 缓存管理：使用API清除和预热缓存，确保缓存的有效性。
- 性能测试：使用工具如Elasticsearch性能测试框架（如ESPerf）进行模拟测试，验证优化效果。

星途面试题库