面试题：ElasticSearch索引结构深度优化之段合并策略调整

优点
- 高效的写入性能：在写入时，新数据快速写入到较小的段中，不需要频繁进行大段的合并操作，因此能保持较高的写入吞吐量。这使得在高写入负载场景下，系统能够快速响应写入请求，减少写入延迟。
- 减少I/O开销：由于每次合并操作处理的段相对较小，合并过程中的I/O操作次数和数据量相对较少，降低了I/O压力。这对于I/O资源有限的环境（如机械硬盘存储环境）非常友好。
缺点
- 查询性能问题：因为存在较多的小段，查询时需要检索多个段，增加了查询的开销。每个段都需要进行一次磁盘I/O读取（如果段不在内存中），导致查询延迟增加，尤其是在复杂查询场景下，这种开销会更加明显。
- 存储浪费：多个小段会占用更多的文件描述符等系统资源，并且小段之间可能存在一些重复的元数据等信息，造成一定的存储浪费。

Tiered合并策略优点
- 查询性能较好：通过将段按照一定层级进行合并，查询时需要检索的段数量相对较少，提高了查询效率。在高查询负载场景下，能更快地返回结果，降低查询延迟。
- 存储利用率高：合并过程中会尽量优化存储布局，减少重复数据和不必要的元数据存储，提高存储效率。
Tiered合并策略缺点
- 写入性能受限：由于在合并时可能需要处理较大的段，写入时的合并操作相对复杂，会影响写入性能。特别是在高写入负载场景下，写入延迟会明显增加。

高写入场景
- 选择Log - Stratified合并策略：优先保证写入性能，利用其快速写入小段的特性。
- 参数调整：
  - index.merge.scheduler.max_thread_count：适当增加该参数值，提高合并线程数量，加快合并速度，但要注意避免过度占用系统资源。例如，可以根据服务器CPU核心数，将该值设置为CPU核心数的一定比例（如75%）。
  - index.merge.policy.max_merge_at_once：增大此参数，允许一次合并更多的段，虽然会在一定程度上增加I/O负载，但能减少合并次数，提高整体写入性能。比如在存储资源允许且I/O性能较好的情况下，可以将其设置为相对较大的值，如10 - 20。
高查询场景
- 选择Tiered合并策略：以提升查询性能为主要目标。
- 参数调整：
  - index.merge.policy.floor_segment：设置合适的最小段大小，使得小段能够尽快合并成较大的段，减少查询时需要检索的段数量。例如，对于内存充足的服务器，可以将该值设置为相对较大的值，如50MB - 100MB。
  - index.merge.policy.max_merge_size：合理调整此参数，控制单次合并的最大段大小，避免合并出过大的段导致查询性能反而下降。一般可以根据业务数据特点和查询模式进行测试调整，如设置为1GB - 2GB。

知识考点