面试题：ElasticSearch 加载超大容量数据集时的深度性能调优策略

分片与副本
- 分片数量：根据数据量和节点数量合理设置分片。对于 TB 级数据，开始时可多分片，但不能过多。例如，每个分片建议控制在 30GB - 50GB 左右。假设 1TB 数据，若每个分片 50GB，则可设置 20 个分片。后续可根据集群负载和查询性能进行调整。
- 副本数量：加载数据阶段可先设置副本为 0，减少资源消耗。加载完成后，根据业务对高可用的要求设置副本，一般设置 1 - 2 个副本。
索引映射
- 字段类型：准确设置字段类型，避免类型转换带来的性能开销。如日期字段设置为 date 类型，数值字段设置为合适的 long、integer 等类型。
- 动态映射：根据业务情况，若能预先定义好所有字段，关闭动态映射，防止意外字段自动创建带来的性能损耗。
索引刷新间隔：加载数据期间，适当增大 index.refresh_interval，例如从默认的 1 秒改为 30 秒甚至 1 分钟，减少索引刷新频率，提高数据加载速度。加载完成后，恢复到合适的较小值以保证数据的近实时性。

堆内存分配
- 合理设置 JVM 堆大小：Elasticsearch 所在服务器的 JVM 堆大小不宜设置过大，一般不超过物理内存的 50%，且不超过 32GB。例如，服务器有 64GB 内存，可设置堆大小为 30GB。因为超过 32GB 会导致指针压缩失效，降低内存使用效率。
- 堆内存比例：设置合适的新生代和老年代比例，如新生代占堆内存的 1/3 到 1/4，以平衡垃圾回收性能。
操作系统内存
- 文件系统缓存：确保操作系统有足够的内存用于文件系统缓存，这有助于快速读取索引数据。Elasticsearch 索引数据以文件形式存储，文件系统缓存可避免频繁磁盘 I/O。可通过调整系统参数，如 swappiness 设置为 1 或更低，减少内存交换到磁盘的频率。

带宽与网络拓扑
- 高带宽网络：确保集群节点之间以及客户端与集群之间有足够的带宽。对于 TB 级数据加载，建议使用 10Gbps 及以上的网络带宽。
- 网络拓扑优化：减少网络跳数，避免网络瓶颈。采用扁平的网络拓扑结构，如二层网络，减少三层路由转发带来的延迟。
TCP 参数
- 调整 TCP 缓冲区：增大 TCP 发送和接收缓冲区，如通过设置 net.core.rmem_max 和 net.core.wmem_max 为较大值（如 16777216，即 16MB），提高网络传输效率。
- TCP 连接复用：启用 TCP 连接复用，减少连接建立和关闭的开销。在 Elasticsearch 配置中，可通过相关参数设置连接池大小等，确保高效的连接管理。

数据加载方式
- 批量加载：根据业务数据的生成规律，采用合适的批量大小。例如，如果业务数据是按小时生成的一批数据，可按小时批量加载。批量大小可通过测试确定，一般在 1000 - 5000 条文档之间，既能减少请求次数，又不会因批量过大导致内存溢出。
- 数据预处理：在加载前，根据业务需求对数据进行预处理。如清洗无效数据、合并相关字段等，减少加载到 Elasticsearch 中的数据量。
查询性能优化
- 热门查询分析：分析业务中常见的查询，对这些查询涉及的字段设置合适的索引，如前缀索引、倒排索引等。例如，业务经常按日期范围和某个关键词查询，对日期字段和关键词字段建立高效索引。
- 缓存机制：结合业务场景，使用外部缓存（如 Redis）缓存热门查询结果。如果业务中有一些查询频率高且结果相对稳定的数据，缓存这些结果可大大减轻 Elasticsearch 的查询压力。

知识考点