面试题：ElasticSearch搜索时如何优化分片选择与路由以提升性能

索引设置优化

合理设置分片数量
- 预评估数据量：在创建索引前，预估数据的增长趋势。如果数据量较小，过多的分片会增加管理开销，降低搜索性能。例如，对于百万级别的数据量，一开始设置5 - 10个分片可能较为合适；如果数据量在数十亿级别，则可能需要更多分片，但要避免分片过度碎片化。
- 动态调整：Elasticsearch支持动态调整分片数量。可以在数据增长过程中，通过_split API来增加分片。例如，当发现某个分片存储的数据量过大，影响搜索性能时，可以将其拆分为多个分片。
优化副本数量
- 根据负载调整：副本主要用于高可用性和读性能提升。在写操作频繁的场景下，减少副本数量（如设置为1个副本）可以提高写入性能，因为每个副本都需要同步数据。而在读操作频繁的环境中，适当增加副本数量（如3 - 5个副本）可以将读请求分散到多个副本上，提高搜索性能。
- 分布策略：确保副本分布在不同的节点上，以防止单个节点故障导致数据不可用。Elasticsearch默认会自动将副本分布到不同节点，但在复杂的集群环境中，可能需要通过cluster.routing.allocation相关配置进行更精细的控制。
索引映射优化
- 字段类型选择：选择合适的字段类型可以显著影响搜索性能。例如，对于日期字段，使用date类型而不是text类型，并设置合适的格式，这样可以利用日期相关的优化搜索算法。对于不需要分词的文本字段，使用keyword类型，避免不必要的分词操作，提高搜索速度。
- 减少冗余字段：避免在索引中存储过多冗余字段。如果某些字段的值可以通过其他字段计算得出，就不应该在索引中重复存储，以减少索引的大小，提高搜索速度。

文档分布优化

基于路由规则分布
- 自定义路由：通过在写入文档时指定routing参数，将相关文档路由到特定的分片。例如，在多租户应用中，可以根据租户ID作为路由值，将同一租户的文档路由到相同的分片。这样在搜索属于某个租户的数据时，只需要在特定分片上进行搜索，减少搜索范围，提高搜索性能。
- 均匀分布：在设置路由规则时，要确保文档在各个分片上均匀分布。否则，可能会出现数据倾斜问题，导致部分分片负载过高，影响整体搜索性能。可以通过对路由值进行哈希等操作，保证数据在分片间的均匀分配。
数据预热
- 热数据处理：识别出访问频率较高的热数据，将其预加载到内存中。可以通过设置index.cache.field.type: soft - freq来启用基于频率的软缓存，对于频繁访问的字段数据，会优先存储在缓存中，提高搜索时的读取速度。
- 定期刷新缓存：对于热数据的缓存，需要定期刷新，以确保数据的一致性。可以设置合理的缓存刷新策略，例如根据时间间隔或者数据更新频率来刷新缓存。

集群配置优化

节点角色分配
- 专用节点：根据不同的功能需求，设置专用节点。例如，设置专门的Master节点负责集群的管理和元数据操作，避免Master节点处理过多的搜索请求而导致性能下降。设置专门的Data节点负责数据存储和搜索操作，优化数据处理能力。还可以设置专门的Coordinating节点来处理客户端请求，将请求分发到合适的Data节点，并合并搜索结果。
- 资源分配：根据节点的硬件资源（如CPU、内存、磁盘I/O等）合理分配节点角色。例如，对于内存较大的节点，可以作为Data节点存储更多的数据；对于CPU性能较强的节点，可以作为Coordinating节点处理更多的请求合并和计算任务。
网络优化
- 带宽优化：确保集群节点之间有足够的网络带宽。在大规模数据搜索时，节点间的数据传输量较大，如果网络带宽不足，会严重影响搜索性能。可以通过升级网络设备、优化网络拓扑等方式提高网络带宽。
- 减少网络延迟：尽量减少节点之间的网络延迟。将节点部署在距离较近的数据中心或者同一数据中心的不同机架上，减少数据传输的物理距离，降低网络延迟。同时，优化网络协议和配置，减少网络拥塞和延迟。

查询优化

优化查询语句
- 避免通配符查询：通配符查询（如*开头的查询）性能较差，因为它需要遍历整个索引。尽量使用前缀查询（如prefix查询）替代通配符查询，前缀查询可以利用索引的前缀树结构，提高查询效率。
- 使用过滤查询：将不影响文档相关性的条件放在过滤查询中，过滤查询不会计算文档的相关性分数，因此性能更好。例如，在搜索电商商品时，对于价格范围、品牌等过滤条件，可以使用过滤查询，这样可以快速排除不符合条件的文档，减少后续计算量。
分页优化
- 深度分页：在使用深度分页（如from + size方式且from值较大）时，性能会急剧下降，因为Elasticsearch需要从所有分片上获取数据并排序。可以使用scroll API来处理大量数据的分页，scroll API会在首次查询时生成一个快照，后续查询基于这个快照进行，避免了每次查询都重新排序的开销。但要注意scroll API适用于一次性获取大量数据的场景，不适合实时交互场景。
- 搜索后分页：如果允许在客户端进行分页处理，可以先在Elasticsearch中搜索到满足条件的文档ID列表，然后根据ID列表在客户端进行分页展示，这样可以减少Elasticsearch的负载，提高搜索性能。

面试题：ElasticSearch搜索时如何优化分片选择与路由以提升性能

知识考点

面试题答案

索引设置优化

文档分布优化

集群配置优化

查询优化