面试题：ElasticSearch复杂聚合查询可选参数对性能的综合影响

1. 理解参数含义

shard_size：每个分片返回的聚合结果的最大数量。Elasticsearch在每个分片上独立执行聚合操作，shard_size决定了每个分片返回给协调节点（coordinating node）的聚合结果数量。
min_doc_count：设置聚合结果中最小文档数量，只有文档数量大于等于该值的聚合桶（bucket）才会被包含在最终结果中。

2. 根据数据规模调整参数

数据规模较小：
- shard_size：可以设置为相对较小的值，如10 - 100，因为数据量少，不需要每个分片返回大量结果。较小的值可以减少网络传输和协调节点的合并计算量。
- min_doc_count：可以设置为1，因为少量数据下每个类别的商品可能数量不多，设置为1能保证所有类别都出现在结果中。
数据规模较大：
- shard_size：适当增大，例如100 - 1000。较大的数据量意味着每个分片可能有更多符合聚合条件的文档，需要足够大的shard_size来确保重要的聚合结果不被遗漏。但过大的值会增加网络传输和协调节点的处理压力。
- min_doc_count：根据业务需求调整，如果只关心主要类别，可以设置为一个较大的值，如100或1000，这样可以减少最终结果中不重要的类别，提升性能。

3. 根据查询频率调整参数

查询频率低：
- shard_size：可以适当增大，因为系统资源在查询间隔期较为充裕，增大shard_size可以提高结果准确性，而不会对整体性能造成太大影响。
- min_doc_count：可根据数据规模和业务需求设置，由于查询频率低，计算成本的影响相对较小。
查询频率高：
- shard_size：应尽量优化到一个合理的较小值，以减少每次查询的计算和传输成本，提升查询响应速度。
- min_doc_count：设置较大值（如果业务允许），过滤掉不重要的类别，减少计算量，提高高频查询的性能。

4. 配置建议

通用配置：

{
    "aggs": {
        "category_agg": {
            "terms": {
                "field": "category_field",
                "shard_size": 100,
                "min_doc_count": 10
            }
        }
    }
}

这里将shard_size设置为100，适用于中等规模数据；min_doc_count设置为10，可过滤掉文档数量过少的类别。

动态调整：可以通过监控系统实时观察查询性能和结果准确性。如果发现某些查询性能不佳，可根据数据规模和查询频率动态调整shard_size和min_doc_count。例如，使用Elasticsearch的API在运行时修改查询参数。

5. 性能调优思路

预聚合：对于固定的聚合查询，可以考虑使用Elasticsearch的物化视图（如Searchable Snapshots或Curator等工具实现类似功能）进行预聚合，减少实时聚合的计算量。
分片优化：确保索引的分片数量合理，避免分片过多或过少。过多分片会增加管理和聚合计算的开销，过少分片可能导致数据分布不均，影响查询性能。
缓存：在应用层实现缓存机制，对于高频且不经常变化的聚合结果进行缓存，直接返回缓存结果，减少对Elasticsearch的查询压力。

星途面试题库

面试题：ElasticSearch复杂聚合查询可选参数对性能的综合影响

知识考点

面试题答案

1. 理解参数含义

2. 根据数据规模调整参数

3. 根据查询频率调整参数

4. 配置建议

5. 性能调优思路