面试题：ElasticSearch索引结构对高并发及海量数据模型的适配与调优

文档设计：
- 将用户动态相关信息，如发布内容、点赞、评论等设计为一个文档。每个动态作为一个独立文档，以动态ID作为唯一标识。例如，对于发布内容，文档包含用户ID、发布时间、内容文本、多媒体链接等字段；点赞文档包含点赞用户ID、被点赞动态ID、点赞时间等；评论文档包含评论用户ID、被评论动态ID、评论时间、评论内容等。
- 对于频繁查询的字段，如用户ID、发布时间等设置为可检索字段，并合理设置字段类型，如日期类型用date，文本字段根据是否需要分词等需求选择text或keyword。
字段映射：
- 对于文本字段，根据搜索需求选择合适的分词器。例如，对于中文内容，可选用结巴分词器等。如果是英文，可使用默认的standard分词器或根据需求调整。
- 对于数值型字段，精确的数字使用integer、long等类型，对于需要范围查询的数值，可考虑使用float等类型。

确定分片数量：
- 初始可根据预估数据量和单个分片能承载的数据量来估算。一般经验法则是单个分片在50GB - 200GB之间较为合适。假设预计数据量为1TB，可初步设置分片数为10（1000GB / 100GB）。但实际情况需根据集群硬件资源、查询模式等进行调整。
- 考虑高并发写入场景，适当增加分片数有助于分散写入压力，但过多分片会增加集群管理开销和搜索时的合并成本。可通过性能测试逐步确定最佳分片数。
分片分布：
- 使用ElasticSearch的自动分片分配机制，将分片均匀分布在集群的各个节点上。确保每个节点的负载相对均衡，避免某个节点因承载过多分片而成为性能瓶颈。

确定副本数量：
- 为保证高可用性，至少设置1个副本。在高并发场景下，可根据集群硬件资源和对数据可用性的要求适当增加副本数量。例如，设置2 - 3个副本。副本数量增加可提高读取性能，因为读请求可以分发到副本分片上，但同时也会增加存储成本和写入时的同步开销。
副本分布：
- ElasticSearch会自动将副本分片分布在不同节点上，避免单个节点故障导致数据不可用。确保每个副本与主分片不在同一节点，以实现故障容错。

索引滚动：
- 随着数据不断增长，可采用索引滚动策略。例如，按时间（如每天、每周）创建新索引，将新的用户动态写入新索引。这样可以避免单个索引过大，影响性能。旧索引可根据数据访问频率进行归档或删除。
索引删除与归档：
- 对于历史较久、访问频率低的数据，可将其从主索引删除并归档到长期存储中，如磁带或云存储。在ElasticSearch中设置索引过期策略，当索引达到一定时间或满足其他条件时，自动触发删除或归档操作。
索引优化：
- 定期对索引进行优化操作，如合并小的分片，减少碎片率，提高查询性能。可在系统低峰期执行optimize（ElasticSearch 6.0之前）或forcemerge（ElasticSearch 6.0及之后）操作。

写入调优：
- 使用批量写入（bulk API），减少写入请求次数，提高写入效率。
- 合理设置写入缓冲区大小（index.buffer.size和index.memory.limit），避免频繁的flush操作导致性能下降。
- 调整refresh_interval参数，适当延长刷新间隔，减少写入时的资源开销，但会增加数据可见延迟。在高并发写入场景下，可将其设置为30s甚至1 - 5分钟。
读取调优：
- 利用缓存机制，如设置适当的HTTP缓存头，对于频繁查询且不经常变化的数据，减少从ElasticSearch读取的次数。
- 优化查询语句，避免使用通配符查询（wildcard query）等高成本操作，尽量使用前缀查询（prefix query）等性能较好的查询方式。
- 对于复杂查询，考虑使用搜索预热（search warmup）机制，提前执行一些常用查询，将结果缓存起来，提高后续查询响应速度。
集群监控与调优：
- 使用ElasticSearch的监控工具（如Elasticsearch Monitoring、Kibana监控面板）实时监控集群的各项指标，如CPU使用率、内存使用率、磁盘I/O、网络流量等。根据监控数据及时调整集群资源配置，如增加节点、调整分片和副本数量等。
- 定期进行性能测试，模拟高并发场景，评估系统性能，发现潜在的性能瓶颈并及时优化。

知识考点