面试题：ElasticSearch分页与性能调优

索引设计

字段类型优化：
- 确保字段类型设置合理，例如日期字段使用date类型而非字符串类型，数字字段使用合适的数值类型（如integer、long等），这样可以减少数据转换开销，提高查询效率。
- 对于不需要进行全文搜索的字段，避免设置为text类型，尽量使用keyword类型，因为text类型会进行分词，增加索引大小和查询复杂度。
索引分片和副本优化：
- 分片数量：根据数据量和预计的查询负载来确定合适的分片数量。分片过多会增加集群管理开销，过少则可能导致单个分片负载过高。一般来说，每个分片建议大小在10GB - 50GB之间，可通过预估数据量来初步计算分片数。例如，如果预计总数据量为500GB，按照每个分片30GB计算，大约需要17个分片。
- 副本数量：副本主要用于提高数据可用性和读性能。在高并发读场景下，可以适当增加副本数量，但过多副本会占用额外的存储空间并增加写操作的开销。根据实际情况，一般设置1 - 2个副本较为合适。
文档建模：
- 扁平化数据结构：尽量避免过深的嵌套结构，因为嵌套文档查询时需要额外的处理，会增加查询成本。如果可能，将嵌套数据展开成扁平化结构。例如，对于一个包含多个地址信息的用户文档，可以将每个地址信息单独作为一个文档，通过父子关系或者其他关联方式进行管理。
- 避免不必要的字段：只存储必要的字段，减少索引大小。如果某些字段在搜索和分页场景中不会用到，可以考虑不进行索引或者存储在其他地方。

查询语句优化

分页方式优化：
- 使用search_after代替from + size：传统的from + size分页方式在深度分页时性能会急剧下降，因为Elasticsearch需要从每个分片的第一条数据开始遍历，直到找到指定的from位置的数据。而search_after通过记录上一页最后一条数据的排序值，从该位置开始查询下一页数据，避免了深度分页的性能问题。例如：

{
    "query": {
        "match_all": {}
    },
    "sort": [
        { "timestamp": "asc" },
        { "_id": "asc" }
    ],
    "size": 10,
    "search_after": [1546300800000, "1"]
}

- **Scroll API**：适用于一次性获取大量数据，但需要注意它是为批量处理数据设计的，保持搜索上下文会占用资源，不适合实时分页场景。使用时先通过`scroll`参数初始化搜索，然后通过`scroll_id`持续获取数据。例如：

{
    "query": {
        "match_all": {}
    },
    "size": 100,
    "scroll": "1m"
}

查询条件优化：
- 使用过滤（Filter）而非查询（Query）：对于不影响相关性评分且用于缩小数据范围的条件，使用filter。filter结果会被缓存，再次查询相同条件时可以直接使用缓存结果，提高查询效率。例如：

{
    "query": {
        "bool": {
            "filter": [
                { "term": { "status": "active" } }
            ]
        }
    }
}

- **优化布尔查询**：合理组织`bool`查询中的`must`、`should`、`must_not`子句。尽量将高选择性（能大幅缩小结果集）的条件放在`must`子句中，以减少需要处理的数据量。

3. 排序优化： - 选择合适的排序字段：优先选择已经建立索引的字段进行排序。如果排序字段没有索引，Elasticsearch需要对每个文档进行计算，增加查询开销。 - 多字段排序：如果需要多个字段排序，确保排序字段的顺序合理，先按照选择性高的字段排序，以减少排序的数据量。例如，先按date字段排序，再按name字段排序。

集群配置

硬件资源配置：
- 内存：确保节点有足够的内存，Elasticsearch会将索引数据加载到内存以提高查询性能。一般建议将可用内存的一半分配给Elasticsearch的堆内存，但不要超过32GB，因为超过这个值后，Java的指针压缩优势会消失，导致内存使用效率降低。
- CPU：根据预计的查询负载和节点数量，合理配置CPU核心数。对于高并发搜索场景，需要较多的CPU核心来处理查询请求。例如，对于中型规模的集群，可以为每个节点配置8 - 16核的CPU。
- 存储：使用高速存储设备，如SSD，以提高数据读写速度。Elasticsearch的索引数据和日志数据对存储I/O性能要求较高，SSD可以显著提升集群性能。
节点角色配置：
- 数据节点和协调节点分离：在大型集群中，将数据节点和协调节点分开配置。数据节点负责存储和处理数据，协调节点负责接收客户端请求并将请求分发到各个数据节点，然后汇总结果返回给客户端。这样可以避免数据节点在处理大量查询请求时负担过重，提高集群整体性能。
- 专用的主节点：选举出专门的主节点负责集群的管理和元数据的维护。主节点不参与数据的存储和查询操作，这样可以保证主节点的稳定性，避免因数据负载过高导致主节点故障，影响整个集群的运行。
网络配置：
- 带宽：确保集群内部节点之间以及客户端与集群之间有足够的网络带宽。高并发搜索场景下，数据传输量较大，如果网络带宽不足，会导致查询响应时间变长。例如，在数据中心内部，建议使用万兆网络连接节点。
- 网络拓扑优化：优化网络拓扑结构，减少网络延迟。避免网络设备成为性能瓶颈，例如使用高性能的交换机和路由器，并合理规划网络路由，确保数据能够快速传输。
Elasticsearch参数配置：
- 线程池配置：调整线程池参数，如search线程池的大小，以适应高并发搜索场景。可以根据节点的CPU核心数和预计的查询负载来调整线程池大小。例如，对于一个8核CPU的节点，可以将search线程池大小设置为16，以提高查询处理能力。
- 缓存配置：合理配置缓存，如过滤器缓存（filter cache）和字段数据缓存（field data cache）。增加缓存的大小可以提高查询性能，但也会占用更多的内存。根据实际情况调整缓存大小，例如将过滤器缓存大小设置为节点堆内存的10% - 20%。
- 刷新间隔（Refresh Interval）：适当延长刷新间隔，减少索引刷新频率。刷新操作会将内存中的数据写入磁盘，虽然可以提高数据的实时可见性，但过于频繁的刷新会增加I/O开销。在高并发读场景下，如果对数据实时性要求不是特别高，可以将刷新间隔从默认的1秒延长到5 - 10秒。

面试题：ElasticSearch分页与性能调优

知识考点

面试题答案

索引设计

查询语句优化

集群配置