面试题：MySQL 故障转移与故障恢复流程 - 专家难度

心跳检测：Galera Cluster 节点间通过周期性发送心跳消息来相互监测状态。每个节点会向其他节点发送特定的心跳包，若在一定时间（通常可配置）内未收到某个节点的心跳响应，则初步判定该节点可能出现故障。
认证机制：心跳消息带有认证信息，确保通信的真实性和安全性，防止恶意节点干扰故障检测。

IST（Incremental State Transfer）：当新节点加入集群或故障节点恢复后，若该节点与集群状态差异较小，集群会使用 IST 机制。IST 主要通过传输自该节点离开或故障后产生的增量数据日志，使节点快速同步到当前集群状态。
SST（State Snapshot Transfer）：若节点与集群状态差异较大（如首次加入集群或长时间离线），则采用 SST。SST 会从集群中的一个 donor 节点获取完整的数据快照，并将其传输到新节点或恢复节点，然后新节点应用这些数据使自身状态与集群一致。常见的 SST 方法有 mysqldump、rsync 等。

法定人数原则：Galera Cluster 使用法定人数仲裁机制。集群正常运行需要超过半数的节点可用。例如，若集群有 3 个节点，至少需要 2 个节点正常工作；若有 5 个节点，则至少 3 个节点正常。当节点故障导致可用节点数低于法定人数时，集群无法进行写操作，以保证数据一致性。
节点选举：在故障恢复过程中，若需要重新选举主节点（虽然是多主架构，但某些情况下仍需类似操作），通常会基于节点的优先级、网络拓扑等因素进行选举。优先级高且网络连接稳定的节点更有可能被选为负责协调和恢复工作的关键节点。

数据一致性
- 多数写原则：Galera Cluster 通过保证多数节点写成功来确保数据一致性。在网络分区发生时，只有处于多数派的分区（包含超过半数节点）能够进行写操作。例如，5 节点集群中，若网络分区形成 3 节点和 2 节点两个分区，3 节点分区可继续写操作，2 节点分区则无法写，从而保证了数据一致性。
- 冲突检测与解决：Galera Cluster 采用同步复制机制，所有节点都保存相同的数据副本。在写操作时，节点会检测数据冲突，若出现冲突（如不同节点同时对同一数据进行修改），会通过特定的冲突解决算法（如基于时间戳等）来决定哪个修改生效，保证数据最终一致性。
可用性
- 分区容忍性：Galera Cluster 设计上具备一定的分区容忍性。多数派分区继续提供服务，虽然少数派分区无法写，但读操作仍可在本地进行（可能数据不是最新）。
- 故障切换：当网络分区恢复后，集群会自动进行故障恢复和状态同步。少数派分区节点重新加入多数派分区，通过 IST 或 SST 机制同步数据，使整个集群恢复正常运行，重新提供完整的读写服务。

复杂问题
- 脑裂问题：在某些极端网络故障场景下，可能出现两个分区都认为自己是多数派的情况，导致脑裂。例如，网络抖动造成节点间心跳短暂中断，部分节点误判集群状态，形成两个都在进行写操作的分区，从而破坏数据一致性。
- SST 性能问题：在大规模集群中，当多个节点同时故障恢复进行 SST 时，可能会对网络和 donor 节点造成巨大压力，导致同步过程缓慢甚至失败。同时，若 donor 节点本身性能不足，也会影响 SST 效率。
应对策略
- 脑裂应对：通过配置合适的网络检测机制（如增加网络监控设备，缩短心跳检测间隔），及时发现网络异常。同时，可采用第三方仲裁设备（如 Pacemaker 结合 Corosync），在脑裂发生时进行仲裁，确保只有一个多数派分区能够继续写操作。
- SST 性能优化：合理规划集群节点，避免过多节点同时故障。对 donor 节点进行性能优化，如增加资源配置、优化磁盘 I/O 等。此外，可以采用并行 SST 技术，允许从多个 donor 节点同时获取数据，加快同步速度。

知识考点