面试题：ElasticSearch索引映射机制之性能优化与高级特性

影响读写性能的索引映射设置

字段数据类型
- 文本类型（text）：适合全文搜索，但默认会进行分词，写入时会增加额外的处理开销。例如，如果对不需要分词的字段（如身份证号）设置为text类型，会浪费资源。读取时，由于分词倒排索引的特性，查询也会相对复杂。
- 关键字类型（keyword）：适合精确匹配，写入时开销小，因为不需要分词。但如果对长文本使用keyword类型，会导致索引体积过大，影响读取性能，因为keyword类型会将整个字段内容作为一个词条索引。
- 数值类型（number）：包括整型（integer）、长整型（long）、单精度浮点型（float）、双精度浮点型（double）等。不同的数值类型占用空间不同，选择合适的数值类型可减少存储空间，提升读写性能。例如，对于表示年龄的字段，使用integer比long更节省空间。
- 日期类型（date）：写入时需要将日期字符串解析为内部格式，读取时也需要将内部格式转换为合适的展示格式。日期格式的复杂度会影响解析和转换效率。
映射参数
- index：设置为false表示该字段不进行索引，写入时可以跳过索引创建过程，提升写入性能，但该字段无法用于搜索。例如，一些仅用于展示而不参与搜索的字段可设置index为false。
- store：设置为true表示该字段会被额外存储，可直接从存储中获取，而不需要从_source字段中解析。但这会增加存储开销，一般仅对需要频繁独立访问的字段设置store为true。
- doc_values：对于keyword、numeric、date等字段，设置doc_values为true可加快排序和聚合操作。写入时会增加磁盘I/O，因为需要额外构建doc_values数据结构，但读取时排序和聚合性能会大幅提升。

调整索引映射优化性能的方法

合理选择字段数据类型
- 对于精确匹配且长度较短的字段，使用keyword类型。
- 对于需要全文搜索的文本字段，使用text类型，并根据需求选择合适的分词器。
- 对于数值字段，根据数值范围选择最小合适的数值类型。
- 日期字段尽量使用简单的日期格式，以减少解析和转换开销。
优化映射参数
- 对于不需要搜索的字段，设置index为false。
- 谨慎使用store参数，仅对必要字段设置store为true。
- 对于需要排序或聚合的字段，确保doc_values为true。

结合动态索引模板和自定义动态映射规则提升性能

动态索引模板（Dynamic Index Templates）
- 动态索引模板允许根据索引名称、字段名称等规则，自动应用映射设置。例如，可以创建一个模板，当索引名称以“log-”开头时，应用特定的映射规则。这样在创建新的日志索引时，无需手动配置映射，提高了创建索引的效率。
- 模板可定义字段的默认数据类型、映射参数等。例如，对于所有日志索引中的“timestamp”字段，统一设置为date类型，并指定日期格式。
自定义动态映射规则
- 通过自定义动态映射规则，可以根据字段名称的模式、数据的特征等动态调整映射。例如，对于以“ip_”开头的字段，自动设置为ip类型，而无需手动配置每个IP字段的映射。
- 可以结合脚本在动态映射中进行更复杂的判断和设置。例如，根据数据的第一个字符判断字段类型，如果第一个字符是数字，则设置为numeric类型。
在灵活性和性能间取得平衡
- 使用动态索引模板和自定义动态映射规则，在保持系统灵活性的同时，通过统一规范的映射设置提升整体性能。例如，对于新创建的索引，能快速应用合理的映射，避免因手动配置不当导致的性能问题。同时，对于特殊需求的字段，仍可通过手动调整映射进行覆盖，保证灵活性。

面试题：ElasticSearch索引映射机制之性能优化与高级特性

知识考点

面试题答案

影响读写性能的索引映射设置

调整索引映射优化性能的方法

结合动态索引模板和自定义动态映射规则提升性能