星途面试题库

面试题：ElasticSearch百分位数聚合的精度优化

在大数据量场景下，ElasticSearch默认的百分位数聚合计算方式可能无法满足精度要求。请阐述如何通过调整参数或者使用其他方法来提高百分位数聚合的计算精度，并说明每种方法的优缺点。

46.4万热度

难度

数据库ElasticSearch

知识考点

AI 面试

面试题答案

调整参数

设置 fielddata_frequency_filter
- 做法：通过设置 fielddata_frequency_filter 来控制哪些文档会被纳入聚合计算。可以根据文档频率等条件过滤掉一些对结果影响较小的文档，以减少计算量并可能提高精度。
- 优点：操作相对简单，不需要改变太多现有架构。在一定程度上减少计算量，可能提高计算速度和精度。
- 缺点：如果过滤条件设置不当，可能会丢失重要数据，导致结果不准确。
调整 shard_size 参数
- 做法：增加 shard_size 参数值。这个参数决定了每个分片返回给协调节点的文档数。增加该值会使聚合计算基于更多的数据，理论上能提高精度。
- 优点：简单直接，对现有查询结构改动较小。更多的数据参与计算，有机会提升精度。
- 缺点：会增加网络传输和内存开销，可能导致性能下降，尤其是在大数据量下。如果值设置过大，可能会引发内存溢出等问题。

使用其他方法

TDigest 算法
- 做法：Elasticsearch 支持使用 TDigest 数据结构来进行百分位数计算。TDigest 是一种近似算法，它通过构建一种紧凑的数据结构来估计百分位数。可以在聚合请求中指定使用 TDigest 算法。
- 优点：在大数据量下能高效地计算近似百分位数，计算速度快，内存占用相对较小。能在较短时间内给出较准确的结果，适用于对实时性要求较高且对精度要求不是绝对精确的场景。
- 缺点：是一种近似算法，不能保证绝对精确，对于对精度要求极高的场景可能不适用。
采样法
- 做法：从大数据集中抽取有代表性的样本数据，对样本数据进行百分位数聚合计算。可以使用随机采样或者分层采样等方法。
- 优点：减少了计算量，提高了计算速度。如果采样方法得当，能在一定程度上反映总体的分布情况，给出相对准确的结果。
- 缺点：依赖于采样方法的正确性，如果采样不合理，可能导致结果偏差较大。同样不能保证绝对精确，在对精度要求苛刻的场景不太适用。