面试题：复杂业务场景下ElasticSearch _source字段过滤与存储字段的深度优化策略

1. _source字段过滤策略

高频查询展示字段：对于高频查询展示的字段，在查询时通过指定_source字段仅返回需要展示的字段，避免返回不必要的大量数据。例如，如果电商搜索结果主要展示商品名称、价格、图片链接等少数几个字段，在查询语句中明确指定这些字段：

{
    "query": {
        "match": {
            "商品名称": "手机"
        }
    },
    "_source": ["商品名称", "价格", "图片链接"]
}

这样可以减少网络传输的数据量，提高查询响应速度。

低频统计分析字段：低频统计分析字段通常不需要在每次查询展示时返回。因此，在查询展示数据时，将这些字段排除在_source之外。例如，商品的历史销售数据、用户评价的详细文本等字段，在常规搜索展示场景下无需返回。

2. 存储字段设置策略

高频查询展示字段：对于高频查询展示的字段，考虑将其设置为存储字段（store: true）。这样在查询时，Elasticsearch 可以直接从存储字段中获取数据，而无需从_source字段解析，进一步提高查询效率。但需要注意的是，存储字段会额外占用存储空间，所以要权衡存储空间和查询效率。例如：

{
    "mappings": {
        "properties": {
            "商品名称": {
                "type": "text",
                "store": true
            },
            "价格": {
                "type": "float",
                "store": true
            },
            "图片链接": {
                "type": "keyword",
                "store": true
            }
        }
    }
}

低频统计分析字段：低频统计分析字段如果不需要在查询展示中使用，可以考虑不将其存储为store字段，以减少存储开销。对于这些字段，可以通过聚合操作从_source中提取数据进行统计分析。例如，商品的历史销售数据可以通过聚合操作计算总销售额、平均销量等指标，而不需要将这些数据存储为单独的存储字段。

3. 综合优化措施

数据分片与副本策略：根据数据量和查询负载，合理设置数据分片数和副本数。对于读多写少的电商搜索场景，可以适当增加副本数，提高查询的并发处理能力和系统可用性。同时，确保分片均匀分布在集群节点上，避免数据倾斜导致部分节点负载过高。
缓存机制：引入缓存层（如 Redis），对高频查询结果进行缓存。当用户发起查询时，先检查缓存中是否存在结果，如果存在则直接返回，减少对 Elasticsearch 的查询压力。缓存可以根据业务需求设置合适的过期时间，以保证数据的实时性。
定期数据清理与优化：随着时间推移，电商数据可能会产生大量历史数据，这些数据对当前业务的查询和统计分析价值较低。定期清理过期或无用的数据，优化索引结构，可以减少存储开销并提高查询性能。同时，对索引进行定期优化（如合并小的段），提高查询效率。
监控与调优：建立完善的监控体系，实时监测系统的性能指标，如查询响应时间、存储使用率、节点负载等。根据监控数据，及时调整优化策略，如调整分片和副本数量、优化查询语句、调整_source字段过滤和存储字段设置等，以保障系统的高可用性和性能优化。

星途面试题库

面试题：复杂业务场景下ElasticSearch _source字段过滤与存储字段的深度优化策略

知识考点

面试题答案

1. _source字段过滤策略

2. 存储字段设置策略

3. 综合优化措施