面试题：ElasticSearch数据副本模型写入优化之基础原理

写入操作基本流程

客户端请求：客户端向 Elasticsearch 集群中的某个节点（通常是负载均衡器指定的节点，也可以直接指定）发送写入请求。
主分片处理：请求到达的节点根据文档的 ID 计算出该文档应写入的主分片所在的节点，然后将请求转发到对应的主分片所在节点。主分片所在节点接收到请求后，将数据写入到内存缓冲区（in - memory buffer），同时记录操作日志到 translog（预写式日志）。
内存缓冲区与磁盘刷新：当内存缓冲区达到一定的阈值（默认 10% 的堆内存或者每隔 1 秒），Elasticsearch 会将内存缓冲区中的数据刷新到磁盘上的一个新的段（segment）文件，此时数据就被持久化到磁盘了。同时，translog 也会定期进行刷盘（默认每隔 5 秒）。
副本分片同步：主分片写入成功后，会将该写入操作同步到其对应的副本分片。副本分片接收到同步请求后，同样将数据写入内存缓冲区和 translog，然后进行类似主分片的刷新到磁盘操作。只有当所有的副本分片都成功写入后，整个写入操作才会被确认成功并返回给客户端。

常见的写入优化策略

批量写入：使用 bulk API 将多个写入操作合并为一个请求发送到 Elasticsearch。这样可以减少网络开销，提高写入效率。例如，在处理大量数据时，将多个文档的创建、更新或删除操作组合在一个 bulk 请求中。
调整刷新策略：
- 减少自动刷新频率：默认情况下，Elasticsearch 每秒会自动刷新一次数据，使其可搜索。如果对数据实时性要求不高，可以通过设置 index.refresh_interval 参数增大刷新间隔，如设置为 index.refresh_interval: 30s，这样可以减少刷新带来的 I/O 开销，提高写入性能。
- 手动控制刷新：在批量写入大量数据时，可以先关闭自动刷新（设置 index.refresh_interval: -1），待所有数据写入完成后，再手动执行一次刷新操作（POST /_refresh），确保数据可搜索。
优化 translog 刷盘策略：默认情况下，translog 每隔 5 秒刷盘一次。对于写入性能要求较高的场景，可以适当增大 index.translog.sync_interval 参数的值，减少刷盘次数。但需注意，这会增加数据丢失的风险，因为如果发生故障，从上一次刷盘到故障时刻的数据可能会丢失。
合理设置副本数量：副本数量过多会增加写入时同步数据的开销，影响写入性能。在写入阶段，可以先减少副本数量，待数据写入完成后再增加副本数量以提高数据可用性和搜索性能。例如，在导入大量数据时，将副本数设置为 0，数据导入完成后再设置为所需的副本数。
优化索引设置：
- 使用合适的映射（mapping）：避免设置过多不必要的字段，尤其是 text 类型字段，因为 text 类型字段会进行分词等复杂操作，增加写入开销。对于不需要进行全文搜索的字段，尽量使用 keyword 等简单类型。
- 调整索引分片数量：分片数量过多会导致每个分片的数据量过小，增加管理开销；分片数量过少可能会导致单个分片数据量过大，影响写入和查询性能。应根据数据量和集群规模合理估算和设置分片数量。例如，对于较小的数据量，可以适当减少分片数量。
硬件优化：
- 使用高性能存储：采用 SSD 硬盘代替传统的机械硬盘，SSD 的读写速度远高于机械硬盘，可以显著提高写入性能。
- 增加内存：Elasticsearch 会将数据缓存到内存中，更多的内存可以容纳更多的数据在内存缓冲区，减少磁盘 I/O 操作，从而提高写入性能。

面试题：ElasticSearch数据副本模型写入优化之基础原理

知识考点

面试题答案

写入操作基本流程

常见的写入优化策略