面试题：ElasticSearch 批量操作性能调优之深度探究

小文档：
- 批量大小：可以适当增大批量操作的文档数量，因为小文档占用内存少，能在一次批量请求中处理更多文档，减少请求次数，提升性能。例如，对于平均大小在几十字节到几百字节的文档，每次批量操作可包含 1000 - 5000 个文档。
- 优化方式：利用 Elasticsearch 的 bulk API 进行批量操作，将多个小文档合并成一个批量请求发送，减少网络开销。
大文档：
- 批量大小：需减小批量操作的文档数量，大文档占用内存多，过多大文档在一次批量请求中可能导致内存溢出或网络传输超时。比如平均大小在几 MB 的文档，每次批量操作可能只包含 10 - 100 个文档。
- 优化方式：对大文档进行合理拆分，例如按段落、章节等逻辑结构拆分，拆分后再进行批量操作。同时，可优化文档结构，去除不必要的字段或数据，减小文档大小。

字段类型：
- 优化方式：尽量使用简单、占用空间小的数据类型。例如，能用 keyword 类型的字段避免使用 text 类型（text 类型会进行分词等操作，占用更多空间和资源）。对于数值类型，根据数据范围选择合适的整数类型（如 byte、short、integer 等），避免使用 long 或 double 等占用空间大的数据类型。
- 举例：对于表示状态的字段，使用 keyword 类型存储 “active”、“inactive” 等状态值；对于年龄字段，使用 integer 类型。
映射设计：
- 优化方式：避免过度复杂的映射，减少不必要的嵌套和父子关系。嵌套文档和父子关系会增加索引和查询的复杂度，降低性能。如果必须使用父子关系，可考虑使用 nested 类型代替传统的父子关系，nested 类型在查询性能上更优。
- 举例：对于产品和评论的关系，如果评论不需要独立查询，可将评论作为产品文档的一个 nested 字段。

高可用性场景：
- 设置方式：当应用场景对数据高可用性要求极高，如金融交易系统、核心业务系统等，可适当增加副本数量，例如设置为 2 - 3 个副本。这样在主节点出现故障时，副本能快速接管，保证服务不间断。
- 性能影响：但副本增加会占用更多的磁盘空间和网络带宽，因为副本的同步需要网络传输数据，同时写操作时需要同步更新副本，会降低写性能。
读写性能平衡场景：
- 设置方式：对于读写性能都有一定要求，但高可用性要求相对不那么极端的场景，如一般的企业级应用，可设置 1 个副本。这样既能保证一定的高可用性，又不会过多影响写性能。读操作时，副本可分担读请求，提升读性能。

机械硬盘（HDD）：
- 优化方式：HDD 的随机 I/O 性能较差，顺序 I/O 性能相对较好。因此，应尽量减少随机读写操作。例如，通过适当增大批量操作的大小，使 I/O 操作更倾向于顺序读写。同时，可调整 Elasticsearch 的索引刷新策略，适当延长刷新间隔，减少小的随机 I/O 操作。比如将 index.refresh_interval 设置为 30s 甚至更长（默认 1s）。
- 注意事项：但刷新间隔延长会导致数据可见性延迟，需根据应用场景平衡数据实时性和 I/O 性能。
固态硬盘（SSD）：
- 优化方式：SSD 的随机 I/O 性能远高于 HDD，可适当增加索引的写入频率，如缩短 index.refresh_interval，提高数据的实时可见性。同时，由于 SSD 读写速度快，可适当增加批量操作的大小，充分利用其高性能。但也要注意 SSD 的使用寿命和写入放大问题，避免频繁的小批量写操作导致写入放大，影响 SSD 寿命。

灵活性：
- 参数调整：根据实际的文档大小分布、索引结构、副本设置和底层存储情况，灵活调整批量大小、索引刷新间隔、副本数量等参数。例如，在文档大小突然变化时，能快速调整批量大小以适应新的情况。
- 索引结构优化：当业务需求发生变化，索引结构需要调整时，如添加新字段或改变字段类型，方案能够提供相应的优化建议和操作步骤，确保在不影响业务正常运行的前提下完成优化。
适应性：
- 不同业务场景：在高并发读、低并发写的场景下，可增加副本数量以提升读性能；在高并发写、低并发读的场景下，减少副本数量，优化批量操作和索引结构以提升写性能。对于对数据实时性要求极高的场景，可调整底层存储和索引刷新策略，确保数据快速可见。
- 不同规模数据：对于小规模数据，方案注重简单性和快速部署，如使用默认的副本设置和相对较小的批量大小；对于大规模数据，更关注性能瓶颈的突破，如优化索引结构、根据底层存储特性进行深度调优。

知识考点