面试题：ElasticSearch索引恢复速度动态调整的实现机制

Checkpoint：Elasticsearch 定期创建检查点，记录哪些段已经被刷写到磁盘。检查点是索引恢复过程的重要参考点，它标记了最后一次一致的状态，恢复时可以从这个点开始，避免不必要的重复操作。
Translog：事务日志，记录了所有尚未持久化到磁盘的索引和删除操作。在恢复过程中，Translog 用于重放这些操作，确保数据的完整性。它以追加的方式写入，保证了操作的顺序性。
Segment：段是 Lucene 中存储数据的物理单元，每个段包含了一部分文档数据和倒排索引。Elasticsearch 中的索引由多个段组成。在恢复时，不同大小和状态的段会有不同的处理方式。

并行恢复：Elasticsearch 可以并行恢复多个分片，通过配置 cluster.routing.allocation.node_concurrent_recoveries 参数，可以控制每个节点上同时进行恢复的分片数量。这样能充分利用节点的资源，提高整体恢复速度。例如，如果一个节点有多个 CPU 核心和足够的带宽，增加并行恢复的分片数量能加快恢复过程。
Throttling（限流）：为了避免恢复过程对集群性能造成过大影响，Elasticsearch 实现了限流机制。它通过监控集群的 I/O、CPU 等资源使用情况，动态调整恢复的速度。比如，如果节点的磁盘 I/O 利用率过高，恢复过程会自动降低速度，防止影响其他正常的集群操作。可以通过 indices.recovery.max_bytes_per_sec 参数设置恢复过程中每秒允许传输的数据量，从而实现限流。
Segment合并优化：在恢复过程中，较小的段会被合并成较大的段，以减少段的数量，提高查询性能。Elasticsearch 会根据段的大小和数量等因素动态决定合并策略。例如，当索引中有较多小段时，会优先进行合并操作，而合并的速度也会根据集群资源情况进行调整。合并过程中，会将多个段的数据重新组织写入新的段，同时更新相关的元数据。

恢复开始：从检查点确定恢复的起始位置，然后读取 Translog 记录。恢复进程首先找到最近的检查点，明确已经持久化到磁盘的状态。接着，从 Translog 的相应位置开始读取操作记录。
重放 Translog：按照 Translog 中的记录顺序，将尚未持久化的索引和删除操作应用到对应的分片上。这个过程会涉及到对段数据的修改和更新。例如，对于新增文档的操作，会在相应的段中添加新的文档记录；对于删除操作，会标记相关文档为删除状态（在段合并时真正移除）。
段处理：在恢复过程中，已存在的段会被加载到内存中。同时，根据段合并策略，对符合条件的段进行合并操作。新生成的段会替代原来的小段，整个过程中，会不断更新索引的元数据，确保各个组件之间的数据一致性。在这个交互过程中，限流机制会根据集群资源情况，对 Translog 重放速度和段合并速度进行动态调整，以平衡恢复速度和集群正常运行的性能需求。

知识考点