面试题：如何优化ElasticSearch从gateway到allocation流程转换以提高集群性能

优化点：
- 增加带宽：确保集群内节点间网络带宽充足，特别是数据传输频繁的节点，如master节点与data节点之间。例如，将网络带宽从1Gbps提升到10Gbps。
- 优化网络拓扑：减少网络跳数，采用扁平化网络拓扑结构。避免复杂的多层交换或路由，以降低网络延迟。
- 设置合适的TCP参数：调整TCP缓冲区大小，例如增大tcp_rmem和tcp_wmem的值，可通过修改/etc/sysctl.conf文件并执行sysctl -p生效。如设置net.ipv4.tcp_rmem = 4096 87380 4194304，net.ipv4.tcp_wmem = 4096 65536 4194304。
原理：
- 增加带宽：ElasticSearch集群数据传输量大，更高的带宽能加快数据在节点间的复制、同步等操作，提升整体性能。
- 优化网络拓扑：减少网络跳数可以降低数据传输的延迟，让节点间通信更高效。
- 设置合适的TCP参数：合适的TCP缓冲区大小能更好地适应网络数据流量，避免因缓冲区过小导致数据丢包或因过大占用过多系统资源。
预期效果：数据传输速度加快，节点间通信延迟降低，集群的整体响应时间缩短，提升数据处理能力。

优化点：
- CPU资源：根据节点角色合理分配CPU核心。例如，master节点可分配2 - 4个核心，专注于集群管理；data节点根据数据量和负载分配更多核心，如8 - 16个核心用于数据处理和搜索。对于协调节点，可分配4 - 8个核心用于请求路由。
- 内存资源：为ElasticSearch进程分配足够内存，遵循“堆内存不超过物理内存一半”原则。如物理内存为64GB，可分配30GB给堆内存，并合理设置Xms和Xmx参数，使其值相等，如-Xms30g -Xmx30g。
- 磁盘资源：使用高速存储设备，如SSD磁盘，提高数据读写速度。为data节点配置RAID 0或RAID 10阵列（RAID 0性能高但无冗余，RAID 10兼顾性能与冗余），以满足数据存储和I/O需求。
原理：
- CPU资源：不同节点角色有不同的任务侧重，合理分配CPU核心能提高任务处理效率。master节点管理集群状态，无需过多核心；data节点处理大量数据，需要更多核心。
- 内存资源：堆内存是ElasticSearch处理数据的重要资源，合理分配可避免频繁的垃圾回收和内存不足问题。
- 磁盘资源：SSD磁盘的高速读写特性适合ElasticSearch频繁的数据读写操作，RAID配置可提升磁盘性能和数据安全性。
预期效果：各节点能更高效地处理任务，减少因资源不足导致的性能瓶颈，提高数据读写和搜索速度。

优化点：
- 数据清洗：在数据导入ElasticSearch之前，去除无效数据、重复数据和噪声数据。例如，通过脚本或ETL工具对日志数据进行清洗，去除格式错误或无意义的记录。
- 数据聚合：对相似数据进行聚合处理，减少数据量。如对时间序列数据，按一定时间间隔（如每小时）进行聚合统计，再导入ElasticSearch。
- 数据压缩：采用高效的压缩算法，如Snappy或LZ4，在数据导入前对数据进行压缩。在ElasticSearch配置文件中设置index.codec为snappy或lz4，如index.codec: snappy。
原理：
- 数据清洗：无效和重复数据会占用存储空间和处理资源，清洗后可减少数据量，提高存储和搜索效率。
- 数据聚合：聚合相似数据能降低数据规模，减少索引大小，加快搜索速度。
- 数据压缩：压缩算法可以减小数据存储体积，降低磁盘I/O压力，提高数据传输速度。
预期效果：减少数据量，降低存储和处理成本，提高索引和搜索性能。

知识考点