面试题：ElasticSearch 复杂文档读写场景下的优化策略

ElasticSearch 配置优化

硬件资源配置
- 内存：为 ElasticSearch 分配足够的堆内存，根据服务器总内存合理规划，一般建议堆内存不要超过物理内存的一半，避免频繁的垃圾回收影响性能。同时，设置合理的堆内存大小，如 -Xms 和 -Xmx 为相同值，防止动态调整堆内存带来的性能抖动。
- CPU：确保服务器有足够的 CPU 核心数，ElasticSearch 是多线程的，更多的核心数可以并行处理更多的请求。如果服务器 CPU 资源紧张，可考虑关闭一些不必要的后台进程。
- 磁盘：使用高速磁盘，如 SSD。对于写操作频繁的场景，SSD 能显著提升性能，减少 I/O 延迟。同时，配置合适的磁盘 I/O 调度算法，如 deadline 调度算法，以优化磁盘 I/O 性能。
集群配置
- 节点角色划分：根据业务需求划分不同的节点角色，如 master 节点主要负责集群状态管理，配置 node.master: true 和 node.data: false；data 节点负责数据存储和读写，配置 node.master: false 和 node.data: true；ingest 节点负责数据预处理，配置 node.ingest: true。合理的角色划分有助于提高集群整体性能。
- 副本设置：根据业务对数据高可用性和读性能的要求设置副本数量。增加副本可以提高读吞吐量，但会增加写操作的开销，因为副本同步需要时间。一般初始可设置为 1 个副本，后续根据实际性能情况调整。
- 分片设置：根据数据量和服务器节点数量合理设置分片数。分片数过少可能导致数据不均衡和性能瓶颈，分片数过多会增加集群管理开销。可以通过预估数据量和测试来确定合适的分片数，如对于一个预计有 100GB 数据的索引，在 3 个节点的集群中，可设置 5 - 10 个分片。
索引设置
- 索引刷新间隔：默认情况下，ElasticSearch 每 1 秒刷新一次索引，这在高吞吐量写操作场景下可能会带来性能问题。可以适当延长刷新间隔，如设置为 5 秒或 10 秒，通过 index.refresh_interval 参数设置，但这会增加数据写入到可搜索的延迟。
- 合并策略：选择合适的合并策略，如 tiered 合并策略适用于大容量索引，它可以更有效地管理磁盘空间和 I/O 资源。可以通过 index.merge.policy 参数进行配置。
- 字段数据格式：对于数值类型字段，选择合适的数据格式，如 doc_values 格式适合排序和聚合操作，而 fielddata 格式适合全文搜索，但内存开销较大。根据业务需求合理选择，如对于商品价格字段，如果经常用于排序和聚合，应使用 doc_values。

索引设计

文档结构设计
- 扁平化设计：对于多层嵌套的商品文档，尽量扁平化处理。虽然 ElasticSearch 支持嵌套对象，但嵌套结构在查询和聚合时性能相对较低。例如，将商品的属性（如品牌、颜色、尺寸等）直接作为顶级字段存储，而不是多层嵌套。
- 父子关系处理：如果商品文档中有一些子文档关系，如商品评论，可以使用父子文档关系（parent - child）设计。父文档存储商品信息，子文档存储评论信息，通过 join 字段关联。这样在查询商品及其评论时，可以提高查询效率。
字段映射设计
- 数据类型选择：准确选择字段的数据类型，如对于商品 ID 选择 keyword 类型，用于精确匹配；对于商品名称选择 text 类型，并配置合适的分词器，如 ik_smart 分词器用于中文分词。避免使用 object 类型存储简单数据，尽量将其拆分为具体的基本数据类型。
- 多字段设计：对于需要不同查询方式的字段，使用多字段设计。例如，对于商品描述字段，一个字段使用全文索引用于模糊查询，另一个字段使用 keyword 类型用于精确匹配特定描述内容。
- 动态映射控制：关闭不必要的动态映射，通过预定义字段映射来确保索引结构的稳定性和性能。可以通过 index.mapping.dynamic 参数设置为 false，然后手动定义所有字段的映射。
索引模板设计
- 通用模板：创建通用的索引模板，定义索引的公共设置，如分片数、副本数、字段映射等。这样在创建新索引时，可以直接应用模板，确保索引配置的一致性和规范性。
- 版本管理：对索引模板进行版本管理，当业务需求变化需要修改索引结构时，可以创建新的模板版本，并逐步切换索引使用新模板，避免对业务造成较大影响。

读写操作的代码优化

批量操作
- 批量写入：使用 ElasticSearch 的批量写入 API（Bulk API），将多个商品文档的写入操作合并为一个请求。这可以减少网络开销，提高写入吞吐量。例如，在 Java 中可以使用 RestHighLevelClient 的 bulk 方法，将多个 IndexRequest 封装到 BulkRequest 中进行批量写入。
- 批量读取：对于需要读取多个商品文档的场景，使用 MultiGet API 进行批量读取。同样可以减少网络请求次数，提高读取效率。在代码实现中，将多个 GetRequest 封装到 MultiGetRequest 中进行批量获取。
异步操作
- 异步写入：使用异步方式进行写入操作，避免阻塞主线程。例如，在 Java 中可以使用 CompletableFuture 结合 ElasticSearch 的异步 API 实现异步写入。这样在写入操作执行的同时，主线程可以继续处理其他业务逻辑，提高系统整体的响应速度。
- 异步读取：对于读取操作也可以采用异步方式，特别是在需要同时处理多个读取请求的场景下。通过异步读取，可以更好地利用系统资源，提高并发处理能力。
缓存机制
- 读缓存：在应用层添加缓存机制，如使用 Redis 作为缓存。对于频繁读取的商品文档，先从缓存中获取，如果缓存中不存在再从 ElasticSearch 中读取，并将读取结果存入缓存。可以设置合理的缓存过期时间，以保证数据的一致性。
- 写缓存：在写入操作中，可以引入写缓存机制，将一定时间内的写入操作先缓存起来，然后批量写入 ElasticSearch。这样可以进一步减少 ElasticSearch 的写压力，提高写入性能。但需要注意写缓存的数据一致性和持久化问题。
查询优化
- 避免全量查询：尽量避免使用全量查询（如 match_all 查询），通过添加过滤条件来缩小查询范围，提高查询效率。例如，根据商品分类、价格范围等条件进行过滤查询。
- 使用聚合和排序优化：在进行聚合和排序操作时，合理设置参数。对于排序操作，尽量使用单字段排序，如果需要多字段排序，要考虑字段的选择性和性能影响。对于聚合操作，减少不必要的聚合层级和聚合字段，以降低计算开销。
- 查询预热：对于一些固定的高频查询，可以在系统启动时进行查询预热，将查询结果缓存起来，以提高首次查询的响应速度。例如，对于热门商品的查询，可以在系统启动时预先执行查询并缓存结果。

面试题：ElasticSearch 复杂文档读写场景下的优化策略

知识考点

面试题答案

ElasticSearch 配置优化

索引设计

读写操作的代码优化