面试题：MariaDB 高可用架构中的 Galera Cluster 相关问题

同步复制：Galera Cluster 使用同步复制技术。当一个节点接收到写操作时，该操作会被组播到集群中的其他所有节点。每个节点在本地应用这个写操作前，会等待所有节点确认接收到该操作。
认证机制：采用认证机制来确保事务的顺序性和一致性。在事务提交阶段，节点会检查事务的冲突情况。如果没有冲突，事务被提交；若有冲突，事务回滚。
组通信：利用组通信协议（如 IST、SST）在节点间传递数据和消息。IST（Incremental State Transfer）用于增量状态传输，在节点间同步少量的增量数据；SST（State Snapshot Transfer）用于全量状态传输，当新节点加入集群时，从已有节点获取完整的数据副本。

CPU 性能：选择具备足够 CPU 核心和性能的服务器，以处理大量的事务认证和数据处理任务。尤其是在高并发读写场景下，强大的 CPU 性能能保证集群的响应速度。
内存容量：足够的内存用于缓存数据和事务日志。内存不足可能导致频繁的磁盘 I/O，影响集群性能。同时，在进行 SST 时，也需要一定的内存空间来暂存传输的数据。
磁盘 I/O 性能：使用高性能的磁盘存储设备（如 SSD），以提高数据读写速度。在事务提交和数据持久化过程中，快速的磁盘 I/O 能减少事务处理时间。
硬件冗余：服务器硬件应具备冗余组件，如冗余电源、硬盘阵列等，以提高单个节点的可靠性，降低硬件故障对集群的影响。

故障检测：通过节点间的心跳检测机制，当一个节点在规定时间内没有收到其他节点的心跳信息时，会认为该节点出现故障。同时，其他节点也会检测到与故障节点的通信中断。
集群重新配置：一旦检测到节点故障，集群会自动重新配置。剩余的节点会重新选举一个新的主节点（如果原主节点故障），并调整集群的状态和通信拓扑。
数据同步：对于故障节点上未完成的事务，集群会进行回滚处理，确保数据一致性。然后，集群会自动调整负载，使剩余节点承担原本由故障节点处理的工作。
故障节点恢复：当故障节点修复后重新加入集群时，它会通过 SST 或 IST 从其他节点获取最新的数据状态，以达到与集群其他节点的数据一致，然后重新参与集群的正常工作。

星途面试题库