星途面试题库

面试题：ElasticSearch中MGet API下_source过滤与存储字段的协同优化

在复杂业务场景下，索引中有大量字段，在MGet API请求多个文档时，既要利用_source过滤减少返回数据量，又要考虑存储字段的配置以提升性能。请阐述如何平衡这两者关系，并说明具体的操作步骤及可能遇到的问题。

48.8万热度

难度

数据库ElasticSearch

知识考点

AI 面试

面试题答案

平衡关系阐述

_source过滤：_source过滤能直接减少返回给客户端的数据量，尤其是在文档包含大量不必要字段时，可显著降低网络传输开销和客户端处理负担。但过度依赖_source过滤，可能导致每次查询都需从磁盘读取整个文档，若索引字段多，会影响性能。
存储字段配置：通过将频繁查询的字段设置为存储字段，可直接从索引中获取这些字段值，避免读取整个文档，提升查询性能。不过，过多存储字段会增加索引大小，占用更多磁盘空间，也可能影响索引构建和更新速度。

具体操作步骤

分析业务需求：明确业务中经常请求的文档字段，将这些字段分类为核心查询字段和非核心字段。
配置存储字段：对核心查询字段，在创建索引时设置为存储字段。例如在Elasticsearch中，使用如下索引映射配置：

{
    "mappings": {
        "properties": {
            "field1": {
                "type": "text",
                "store": true
            },
            "field2": {
                "type": "keyword",
                "store": true
            }
        }
    }
}

使用_source过滤：在MGet API请求中，利用_source参数指定需要返回的字段。以Elasticsearch为例：

{
    "ids": ["doc1_id", "doc2_id"],
    "_source": ["field1", "field2"]
}

可能遇到的问题

存储字段过多：索引文件变大，磁盘空间占用增加，索引构建和更新操作变慢。解决办法是定期评估存储字段使用情况，移除不再频繁使用的存储字段。
_source过滤不当：若过滤字段过多，可能导致仍需读取大量文档数据，未充分发挥_source过滤优势。应根据业务查询特点，精确指定需要返回的字段。
兼容性问题：不同搜索引擎对存储字段和_source过滤的支持方式和语法略有差异，需要针对具体搜索引擎进行适配。例如Solr和Elasticsearch在配置和使用上就有不同之处。