面试题：ElasticSearch索引和搜索协同优化之复杂场景应对

索引创建

分片与副本规划：
- 对于海量数据，合理分配分片数量至关重要。分片数需根据数据量、节点数以及预期增长预估。例如，如果预计数据量会持续增长，初始可适当多分配一些分片，但不宜过多，否则会增加搜索开销。假设每个节点的硬件配置一般，数据量在数TB级别，可先设置10 - 20个分片。副本数可根据数据可用性和性能平衡考虑，通常设置1 - 2个副本。过多副本会占用更多磁盘空间和网络资源，但能提高数据冗余和可用性。
索引模板：
- 创建索引模板可确保所有相关索引具有一致的结构。例如，对于不同类型数据的索引，可在模板中定义通用的设置，如索引的存储类型、刷新间隔等。比如，对于一些实时性要求不高但存储成本敏感的索引，可适当增大刷新间隔，减少I/O开销。

映射设计

数据类型准确映射：
- 文本类型：对于文本数据，使用text类型，并指定合适的分析器。例如，如果是英文文本，可使用english分析器，它会对文本进行词干提取等处理，提高搜索相关性。对于中文文本，可选用ik_max_word等中文分析器，以实现更细粒度的分词。
- 图像元数据：图像元数据可能包含图像尺寸、拍摄时间等信息。尺寸可映射为integer类型，拍摄时间映射为date类型。日期类型要指定合适的格式，如yyyy - MM - dd HH:mm:ss，方便按时间范围搜索。
- 地理位置信息：使用geo_point类型来存储地理位置信息，如经纬度。这样可以利用Elasticsearch的地理空间搜索功能，实现距离搜索、区域搜索等，例如搜索距离某个坐标点一定范围内的所有文档。
多字段映射：
- 对于某些字段，可能需要多种表示方式。例如，对于一个商品名称字段，除了原始的text类型字段用于全文搜索外，还可以创建一个keyword类型字段，用于精确匹配，如品牌名称的精确搜索。

搜索优化

查询语法优化：
- 布尔查询：合理使用bool查询，将不同条件组合起来。例如，在搜索包含特定文本且位于某个地理位置范围内的文档时，可使用bool查询的must子句来组合文本查询和地理空间查询，提高查询准确性。
- 前缀查询慎用：前缀查询（如prefix查询）会对性能产生较大影响，因为它需要遍历大量的倒排索引。尽量避免在大数据集上使用前缀查询，除非必要。如果确实需要，可考虑对数据进行预处理，缩小查询范围。
缓存与预热：
- 结果缓存：使用Elasticsearch的结果缓存机制，如filter上下文的缓存。对于一些经常查询的固定条件，如特定类别数据的搜索，filter上下文会缓存查询结果，下次相同查询时可直接返回，提高查询速度。
- 索引预热：在系统启动或数据加载后，对常用的索引进行预热操作，将索引数据加载到内存中，减少首次查询的I/O开销，提高响应速度。
聚合优化：
- 减少聚合字段：在进行聚合操作时，尽量减少聚合的字段数量。聚合操作对资源消耗较大，减少不必要的聚合字段可提高性能。例如，只对关键的分类字段进行聚合，而不是对所有字段都进行聚合。
- 桶选择：根据业务需求选择合适的桶聚合方式，如terms聚合用于离散值的分组，date_histogram聚合用于按时间范围分组等，确保聚合操作高效执行。

面试题：ElasticSearch索引和搜索协同优化之复杂场景应对

知识考点

面试题答案

索引创建

映射设计

搜索优化