面试题：ElasticSearch聚合查询调试时的性能优化技巧

索引设置

字段数据类型：确保字段数据类型设置合理，避免类型转换带来的性能损耗。例如，数字类型字段应设置为合适的数值类型（如 long、double 等），而非 text 类型，因为 text 类型默认会进行分词处理，影响数值聚合性能。
索引分片与副本：
- 分片数量：根据数据量和硬件资源合理设置分片数量。若分片过多，会增加查询时的协调开销；分片过少，可能无法充分利用硬件资源。例如，对于千万级别的数据量，可根据经验设置为10 - 20个分片。
- 副本数量：副本主要用于提高数据可用性和查询并发能力，但过多副本会占用大量内存和磁盘空间，并影响写入性能。一般设置1 - 2个副本即可。
映射设置：
- 启用Doc Values：对于需要聚合的字段，确保启用了Doc Values。Doc Values是一种列式存储结构，能大幅提升聚合性能。例如，对于 keyword 类型字段，默认是开启Doc Values的，但对于 text 类型字段，若需要对其进行聚合，可通过设置 doc_values: true 来启用。
- 禁用_source：如果不需要返回文档的原始内容，可在映射中禁用 _source，这样可以减少索引存储开销，提高查询性能。但需注意，禁用后将无法直接获取文档完整内容，适合只关注聚合结果的场景。

查询语句调整

减少不必要的字段检索：在查询中只指定需要的字段，避免检索所有字段。例如，在聚合查询中，若只关心聚合结果，可通过 _source 参数指定只返回聚合相关字段。

{
    "_source": ["field1", "field2"], 
    "aggs": {
        "group_by_field1": {
            "terms": {
                "field": "field1"
            }
        }
    }
}

优化聚合结构：
- 避免深层嵌套聚合：嵌套聚合层次过深会增加查询复杂度和性能开销。尽量简化聚合结构，能在同一层级完成的聚合操作不要嵌套。例如，原本有三层嵌套聚合：

{
    "aggs": {
        "agg1": {
            "terms": {
                "field": "field1"
            },
            "aggs": {
                "agg2": {
                    "terms": {
                        "field": "field2"
                    },
                    "aggs": {
                        "agg3": {
                            "terms": {
                                "field": "field3"
                            }
                        }
                    }
                }
            }
        }
    }
}

可尝试优化为两层：

{
    "aggs": {
        "agg1": {
            "terms": {
                "field": "field1"
            },
            "aggs": {
                "agg2_agg3": {
                    "composite": {
                        "size": 10,
                        "sources": [
                            {
                                "field2": {
                                    "terms": {
                                        "field": "field2"
                                    }
                                }
                            },
                            {
                                "field3": {
                                    "terms": {
                                        "field": "field3"
                                    }
                                }
                            }
                        ]
                    }
                }
            }
        }
    }
}

- **使用Composite Aggregation**：对于多维度分析，Composite Aggregation可以更高效地处理复杂的分组和排序。如上述优化示例中，通过 `composite` 聚合可以在一次请求中完成多个字段的分组，减少聚合层次。

3. 添加过滤条件：在聚合查询前先通过 query 子句添加过滤条件，减少参与聚合的数据量。例如，只对满足某个条件的数据进行聚合：

{
    "query": {
        "term": {
            "status": "active"
        }
    },
    "aggs": {
        "group_by_type": {
            "terms": {
                "field": "type"
            }
        }
    }
}

使用缓存：
- 请求缓存：Elasticsearch支持请求缓存，可以缓存查询结果，对于相同的查询，直接从缓存中获取结果，提高查询性能。可以通过在查询中设置 request_cache: true 来启用请求缓存（注意，并非所有查询都适合请求缓存，如涉及实时数据的查询）。

{
    "request_cache": true, 
    "aggs": {
        "group_by_field": {
            "terms": {
                "field": "field"
            }
        }
    }
}

- **字段数据缓存**：Elasticsearch会缓存字段数据（Doc Values），确保经常用于聚合的字段数据能被缓存，提高聚合性能。可通过调整相关配置参数来优化字段数据缓存的使用。

硬件与集群优化

增加内存：Elasticsearch在聚合操作时需要大量内存来处理数据，增加节点的内存可以提高聚合性能。例如，将节点的堆内存设置为合适的值，一般建议堆内存不要超过物理内存的50%，且不超过32GB（避免内存交换空间带来的性能问题）。
优化网络配置：确保集群节点之间网络带宽充足，低延迟。例如，使用高速网络设备，优化网络拓扑结构，减少网络拥塞。
监控与调优：使用Elasticsearch的监控工具（如Elasticsearch Head、Kibana等）实时监控集群性能指标，如CPU使用率、内存使用率、磁盘I/O、网络流量等，根据监控数据进行针对性的性能调优。例如，若发现某个节点CPU使用率过高，可考虑是否该节点分片负载过重，进行分片重新分配。

面试题：ElasticSearch聚合查询调试时的性能优化技巧

知识考点

面试题答案

索引设置

查询语句调整

硬件与集群优化