面试题：ElasticSearch 文档操作扩展与延伸的性能优化

架构设计方面

节点角色分离
- 主节点（Master Node）：
  - 配置足够的内存和 CPU 资源，确保其能稳定处理集群状态的管理和元数据的更新。建议主节点的数量为奇数个，通常为 3 个，以保证在选举过程中能形成多数派，避免脑裂问题。
  - 仅承担主节点职责，避免在主节点上执行数据的索引和搜索操作，通过node.master: true、node.data: false、node.ingest: false配置来明确角色。
- 数据节点（Data Node）：
  - 根据数据量和性能需求合理规划数据节点数量。对于数十亿级别的文档，可能需要较多的数据节点来分散数据负载。例如，根据预估的数据量和单个节点的存储能力，计算出大致需要的数据节点数。
  - 为数据节点分配充足的磁盘空间和 I/O 资源，以支持大量数据的读写操作。配置高性能的磁盘阵列（如 SSD 磁盘），提升数据的读写速度。
  - 通过node.master: false、node.data: true、node.ingest: false配置来明确角色。
- 协调节点（Coordinating Node）：
  - 在集群前端设置协调节点，负责接收客户端请求，并将请求转发到相应的数据节点进行处理，然后将结果汇总返回给客户端。可以根据流量情况设置多个协调节点来分担负载。
  - 通过node.master: false、node.data: false、node.ingest: false配置来明确角色。
分片与副本策略
- 分片数量：在索引创建时，合理设置分片数量。对于数十亿级别的文档，每个索引的分片数不宜过少也不宜过多。过少会导致单个分片数据量过大，影响性能；过多则会增加集群管理开销。一般可根据数据量和节点数量来估算，例如每个分片控制在 30 - 50GB 数据量左右，根据总数据量计算出合适的分片数。
- 副本数量：根据对高可用性和读性能的要求设置副本数量。如果对读性能要求较高，可以适当增加副本数量，但同时也会增加存储开销。通常设置 1 - 2 个副本较为常见，通过index.number_of_replicas参数进行配置。

配置调优方面

JVM 配置
- 堆内存设置：根据节点的角色和可用内存来设置 JVM 堆内存。对于数据节点，由于需要缓存大量的数据，堆内存可设置为物理内存的 50%，但不超过 32GB，因为超过 32GB 会导致指针压缩失效，降低内存使用效率。通过ES_JAVA_OPTS="-Xms16g -Xmx16g"（假设设置为 16GB 堆内存）来配置。
- 垃圾回收器选择：推荐使用 G1 垃圾回收器，它在处理大堆内存时具有更好的性能表现。可以通过ES_JAVA_OPTS="-XX:+UseG1GC"来启用 G1 垃圾回收器。
索引配置
- 刷新间隔（refresh interval）：默认情况下，Elasticsearch 每隔 1 秒会将内存中的数据刷新到磁盘，生成一个新的段。如果对实时性要求不是特别高，可以适当延长刷新间隔，例如设置为index.refresh_interval: 5s，以减少 I/O 开销。
- 合并策略（merge policy）：调整合并策略参数，如index.merge.policy.floor_segment，默认值为 2MB，可根据实际情况适当增大，减少小片段的合并频率，提高性能。
网络配置
- TCP 缓冲区：适当增大 TCP 接收和发送缓冲区大小，以提高网络传输性能。例如，在 Linux 系统中，可以通过修改/etc/sysctl.conf文件，设置net.core.rmem_max和net.core.wmem_max为较大的值（如 16777216），然后执行sudo sysctl -p使配置生效。
- 绑定地址：确保节点绑定到合适的网络地址，避免因网络配置问题导致节点间通信不畅。

操作策略方面

批量操作
- 批量索引：使用批量 API（_bulk）进行文档的索引操作，将多个文档的索引请求合并成一个请求发送到 Elasticsearch，减少网络开销和请求处理次数。例如，在使用 Elasticsearch 的客户端库时，将多个文档组成一个批量请求数组发送。
- 批量更新：对于频繁的多条件更新操作，同样使用批量 API。可以构建包含多个更新操作的请求体，一次性发送给 Elasticsearch 进行处理。
异步操作
- 异步索引与更新：利用 Elasticsearch 的异步特性，在进行索引和更新操作时，使用异步调用方式。例如，在 Java 客户端中，可以使用ActionListener来处理异步操作的结果，这样在操作执行时不会阻塞主线程，提高系统的并发处理能力。
脚本优化
- 使用 Painless 脚本：Elasticsearch 推荐使用 Painless 脚本语言，它在性能和安全性方面表现较好。在编写自定义脚本操作时，尽量使用 Painless 脚本。
- 脚本缓存：开启脚本缓存，通过script.cache.enable: true配置，Elasticsearch 会缓存编译后的脚本，下次执行相同脚本时无需重新编译，提高脚本执行效率。
监控与调优
- 性能监控：使用 Elasticsearch 自带的监控工具（如 Kibana 的监控面板）或第三方监控工具（如 Prometheus + Grafana）来实时监控集群的性能指标，如 CPU 使用率、内存使用率、磁盘 I/O、网络流量、索引和搜索的耗时等。
- 基于监控的调优：根据监控数据，及时发现性能瓶颈并进行针对性的调优。例如，如果发现某个数据节点的磁盘 I/O 过高，可以考虑增加数据节点或更换性能更好的磁盘；如果发现某个索引的搜索耗时较长，可以优化查询语句或调整索引结构。

面试题：ElasticSearch 文档操作扩展与延伸的性能优化

知识考点

面试题答案

架构设计方面

配置调优方面

操作策略方面