面试题：ElasticSearch 近实时搜索性能提升之索引优化

使用合适的分片数
- 原理：分片是 Elasticsearch 索引的一部分，数据分散存储在各个分片中。合适的分片数能平衡负载和资源利用。如果分片数过多，会增加集群管理开销，如分片间通信、状态维护等；分片数过少，则可能导致单个分片数据量过大，影响搜索性能。例如，对于数据量较小且查询并发不高的场景，较少的分片数（如2 - 3片）能减少管理开销，提高性能；而对于数据量巨大且查询并发高的场景，适当增加分片数（如根据预估数据量和硬件资源合理计算），能将负载分散到多个节点，加快搜索速度。
优化文档设计
- 原理：
  - 避免大文档：大文档会占用更多的内存和磁盘空间，在索引和搜索时处理时间更长。例如，将一个包含大量文本的单个字段拆分成多个较小的字段，可减少单个文档的大小，提高处理效率。
  - 合理使用嵌套文档和父子文档：嵌套文档适合关系紧密且需要同时查询的数据，它在索引时会将相关数据存储在一起，查询时能快速定位。父子文档适合关系相对松散的数据，通过父子关系关联，父文档的索引和搜索性能相对较好，子文档可以按需加载，避免不必要的数据加载，提升整体性能。
设置合理的刷新间隔
- 原理：Elasticsearch 的刷新操作将内存中的数据写入磁盘生成新的段，使其可被搜索。默认刷新间隔是1秒，这保证了近实时性，但频繁刷新会带来性能开销，因为每次刷新都涉及数据写入磁盘等操作。对于对实时性要求不是极高的场景，可以适当增大刷新间隔（如5 - 10秒），减少刷新次数，从而提升索引性能；而对于实时性要求高的场景，保持默认或适当调小刷新间隔，但要注意性能损耗。
使用倒排索引优化
- 原理：Elasticsearch 基于倒排索引实现搜索。优化倒排索引可通过合理选择分析器来实现。分析器将文本拆分成词条并构建倒排索引。选择合适的分析器能生成更有效的词条，例如对于英文文本，标准分析器能很好地处理单词；对于中文文本，使用专门的中文分析器（如 IK 分析器）能按语义切分中文，生成更精准的词条，从而加快搜索时在倒排索引中的查找速度，提升搜索性能。
启用索引缓存
- 原理：Elasticsearch 有多种缓存机制，如过滤器缓存、字段数据缓存等。启用索引缓存可以将经常使用的数据（如过滤后的结果集、字段数据等）缓存起来。当相同的查询再次执行时，直接从缓存中获取数据，减少磁盘 I/O 和计算开销，大大提高搜索性能。例如，对于一些固定条件的过滤查询，过滤器缓存能显著提升后续相同查询的响应速度。

面试题：ElasticSearch 近实时搜索性能提升之索引优化

知识考点

面试题答案