面试题：ElasticSearch集群节点过滤与复杂业务场景的深度融合

一、集群拓扑结构

数据节点
- 热数据节点：配备高性能硬件，如高速SSD存储、多核CPU和大容量内存。用于存储和处理近期活跃的订单数据、用户行为数据以及热门商品数据。这些数据读写频率高，对实时性要求强，热数据节点的高性能配置能满足其性能需求。
- 冷数据节点：采用相对较低成本的硬件，如大容量机械硬盘。负责存储历史订单数据、低频用户行为数据和冷门商品数据。这些数据访问频率较低，适合存储在成本较低的设备上。
主节点：具备较高的稳定性和可靠性，负责管理集群状态，如创建或删除索引、跟踪节点状态等。主节点不参与数据的存储和搜索，因此不需要特别高的计算和存储资源，但稳定性至关重要。
协调节点：分布在各个数据节点附近，负责接收客户端请求，将请求转发到合适的数据节点，并合并各个数据节点的响应结果返回给客户端。协调节点可以根据请求类型和数据分布，智能地选择目标数据节点，提高查询效率。

二、节点过滤策略

基于数据类型过滤
- 订单数据：对于高频交易的订单数据，将其索引分片分配到热数据节点。可以通过索引模板设置，在创建订单索引时指定其存储在热数据节点。例如，在索引模板中设置 index.routing.allocation.include.type: hot - order，其中 hot - order 是热数据节点中专门用于订单数据的标签。
- 用户行为数据：实时性较强的用户行为数据，如最近一小时内的浏览、点击等行为数据存储在热数据节点。而历史用户行为数据，如一周前的数据，迁移到冷数据节点。可以通过索引生命周期管理（ILM）策略实现这种冷热数据的自动迁移。在ILM策略中，定义当索引创建时间超过一定阈值（如一周）时，将索引迁移到冷数据节点。
- 商品数据：热门商品数据存放在热数据节点，冷门商品数据存放在冷数据节点。可以通过在商品索引中添加热度标签字段，如 popularity，并在索引分配时根据该字段值进行过滤。例如，设置 index.routing.allocation.include.popularity: high 表示将热度高的商品索引分片分配到热数据节点。
基于冷热数据分层过滤
- 热数据：热数据节点仅处理最近一段时间内（如一天或一周）的活跃数据。对于订单数据，这可能是当天未完成的订单；对于用户行为数据，是最近24小时内的行为记录；对于商品数据，是近一周内销量较高的商品。通过设置数据的时间戳字段，结合ILM策略，实现热数据在热数据节点的存储和管理。
- 冷数据：冷数据节点接收超过热数据时间范围的数据。冷数据节点主要用于数据的长期存储和偶尔的历史查询。为了降低存储成本，冷数据节点可以采用较低性能的硬件，但要保证数据的安全性和可恢复性。

三、索引设计

订单索引
- 分片设计：根据订单量和业务增长预测，合理分配分片数量。例如，对于高频交易的电商系统，每天订单量在10万以上，可以初始设置10个分片，每个分片分配到不同的热数据节点，以提高读写性能。随着业务增长，可以动态调整分片数量。
- 字段设计：包含订单基本信息字段，如订单ID、用户ID、商品ID、下单时间、订单金额等。为了便于查询和分析，对关键字段设置合适的分词器和索引策略。例如，下单时间字段设置为日期类型，用于时间范围查询；订单金额字段设置为数值类型，支持聚合计算。
- 索引生命周期管理：设置订单索引的生命周期，根据订单完成状态和时间进行管理。对于未完成订单，保持在热数据节点；已完成订单，在一定时间（如一周）后迁移到冷数据节点。可以通过ILM策略，定义索引在不同阶段的存储位置和操作，如将完成一周的订单索引从热数据节点迁移到冷数据节点，并对冷数据节点的索引进行压缩存储，以节省空间。
用户行为索引
- 分片设计：考虑到用户行为数据的高并发写入和查询需求，根据预估的每秒行为记录数来确定分片数量。假设每秒产生1000条用户行为记录，可以设置20个分片，均匀分布在热数据节点上，确保写入和查询的高性能。
- 字段设计：包括用户ID、行为类型（浏览、点击、购买等）、行为时间、商品ID等字段。对于行为时间字段，采用高精度时间格式，以便进行详细的时间序列分析。行为类型字段设置为keyword类型，方便进行聚合统计。
- 索引生命周期管理：实时用户行为数据（如最近一小时内）存储在热数据节点，通过滚动索引（Rolling Index）方式，每小时创建一个新的索引。对于历史行为数据，在每天结束时，将当天的索引迁移到冷数据节点。通过ILM策略，自动管理索引的创建、迁移和删除，确保热数据节点只保留近期活跃数据。
商品索引
- 分片设计：根据商品数量和查询模式确定分片数量。如果商品总数在10万以上，可以设置15个分片。对于热门商品和冷门商品，可以分别设置不同的分片策略。例如，热门商品分片分配到性能更好的热数据节点，冷门商品分片分配到冷数据节点。
- 字段设计：包含商品ID、商品名称、价格、库存、描述、分类、热度等字段。商品名称字段采用合适的分词器，以支持全文搜索；热度字段用于判断商品的热门程度，作为索引分配和查询优化的依据。
- 索引生命周期管理：根据商品的销售活跃度和热度变化，动态调整索引存储位置。对于新上架且热度逐渐上升的商品，将其索引迁移到热数据节点；对于长时间无人问津的商品，将其索引迁移到冷数据节点。通过定期分析商品的销售数据和用户行为数据，更新商品的热度字段，并触发索引的迁移操作。

四、日常运维中的注意事项

监控与预警
- 性能监控：通过ElasticSearch提供的监控API，实时监控节点的CPU使用率、内存使用率、磁盘I/O、网络带宽等性能指标。设置合理的阈值，当指标超过阈值时及时发出预警，如通过邮件、短信或即时通讯工具通知运维人员。例如，当热数据节点的CPU使用率连续10分钟超过80%时，发出预警，提示可能存在性能瓶颈。
- 数据监控：监控索引的大小、分片状态、文档数量等数据指标。定期检查索引的增长趋势，确保存储资源充足。对于冷数据节点，监控数据的完整性和可恢复性，防止数据丢失。例如，每天检查一次冷数据节点上索引的校验和，确保数据未损坏。
节点健康管理
- 节点状态检查：定期检查集群中各个节点的健康状态，包括主节点、数据节点和协调节点。使用 _cat/nodes API查看节点状态，确保所有节点正常运行。对于出现故障的节点，及时进行修复或替换。例如，如果某个热数据节点出现硬件故障，立即将其下线，启动备用节点，并将该节点上的分片重新分配到其他节点。
- 节点负载均衡：定期检查节点的负载情况，确保各个节点的负载均匀。如果发现某个节点负载过高，可以通过ElasticSearch的分片重新分配功能，将部分分片迁移到负载较低的节点。例如，使用 _cluster/reroute API手动调整分片分配，优化集群性能。
数据备份与恢复
- 定期备份：制定定期的数据备份策略，确保订单数据、用户行为数据和商品数据的安全性。可以使用ElasticSearch的快照功能，将索引数据备份到远程存储，如Amazon S3或阿里云OSS。每天凌晨进行一次全量备份，每周进行一次增量备份，以节省存储空间和备份时间。
- 恢复测试：定期进行数据恢复测试，验证备份数据的可用性。在测试环境中模拟数据丢失场景，从备份中恢复数据，确保数据能够完整、准确地恢复。每季度至少进行一次恢复测试，确保在实际发生数据丢失时能够快速恢复业务。
版本管理与升级
- 版本跟踪：密切关注ElasticSearch官方发布的新版本，了解新功能、性能优化和安全补丁。定期评估是否需要升级集群版本，以获取更好的性能和功能支持。例如，当新版本发布了针对电商业务场景的性能优化特性时，及时评估升级的可行性。
- 升级测试：在升级生产集群之前，在测试环境中进行全面的升级测试。包括功能测试、性能测试、兼容性测试等，确保升级后系统的稳定性和功能完整性。测试完成后，制定详细的升级计划，按照计划逐步升级生产集群，降低升级风险。

面试题：ElasticSearch集群节点过滤与复杂业务场景的深度融合

知识考点

面试题答案

一、集群拓扑结构

二、节点过滤策略

三、索引设计

四、日常运维中的注意事项