面试题：ElasticSearch复杂场景下命令行参数与配置文件的协同优化

一、命令行参数优化

内存分配
- 关键参数：-Xms 和 -Xmx，分别用于设置JVM的初始堆大小和最大堆大小。
- 调整策略：在超大规模集群且高并发读写场景下，根据服务器的物理内存合理分配。例如，如果服务器有64GB内存，建议将 -Xms 和 -Xmx 设置为相同值，且不超过物理内存的50%，即32GB。这是因为Elasticsearch是基于Java开发，合理的堆内存设置可以避免频繁的垃圾回收，提升性能。
GC 策略选择
- 关键参数：-XX:+UseG1GC。
- 调整策略：启用G1垃圾回收器，它在处理大堆内存时有更好的性能表现，适用于高并发读写场景。相比其他GC策略，G1能更有效地控制停顿时间，减少对集群读写性能的影响。

二、配置文件优化

索引设置
- 关键配置项：index.number_of_shards 和 index.number_of_replicas。
- 调整策略：
  - index.number_of_shards：对于超大规模集群，根据数据量和节点数量来设置。一般每个分片大小控制在30GB - 50GB较为合适。如果数据总量为10TB，预计每个分片40GB，那么 index.number_of_shards 可设置为250左右。同时，要考虑节点数量，确保分片能均匀分布在各个节点上。
  - index.number_of_replicas：根据数据冷热分布不均的情况，对于热数据，可以适当减少副本数量，如设置为1；对于冷数据，可以适当增加副本数量，如设置为2 - 3，以提高数据的可用性。但副本过多会占用大量磁盘空间和网络带宽，需要综合权衡。
集群设置
- 关键配置项：cluster.routing.allocation.node_concurrent_recoveries 和 cluster.routing.allocation.node_initial_primaries_recoveries。
- 调整策略：
  - cluster.routing.allocation.node_concurrent_recoveries：这个参数控制每个节点上同时进行的恢复操作（如副本恢复）数量。在高并发场景下，可适当调小该值，如设置为2 - 3，避免过多的恢复操作占用过多的网络和磁盘I/O资源，影响正常的读写操作。
  - cluster.routing.allocation.node_initial_primaries_recoveries：控制每个节点上初始主分片恢复的数量。同样，在高并发环境中，可设置为1 - 2，以减少启动时对系统资源的冲击。
存储设置
- 关键配置项：path.data 和 indices.memory.index_buffer_size。
- 调整策略：
  - path.data：确保数据存储路径在高性能的磁盘设备上，如SSD。如果可能，将不同索引的数据分布在不同的磁盘上，以提高I/O性能。
  - indices.memory.index_buffer_size：该参数设置索引缓冲区的大小，用于写入操作。在高并发写入场景下，可以适当增大该值，如设置为 20%，提高写入性能。但过大的值可能会导致内存不足，需要根据服务器内存情况调整。
网络设置
- 关键配置项：network.host 和 http.port。
- 调整策略：
  - network.host：设置为服务器的实际IP地址，确保集群内节点之间以及与外部客户端的通信顺畅。如果是多网卡服务器，要选择合适的网卡IP。
  - http.port：默认是9200，如果与其他服务端口冲突，可进行修改。同时，要注意在防火墙中开放该端口，保证外部客户端能正常访问。

面试题：ElasticSearch复杂场景下命令行参数与配置文件的协同优化

知识考点

面试题答案

一、命令行参数优化

二、配置文件优化