面试题：MySQL高可用性与业务连续性计划中的复杂故障应对策略

技术手段

网络分区
- 心跳检测：使用MySQL自带的心跳机制或第三方工具，如MHA（Master High Availability），定时检测节点间的网络连接状态。若检测到网络分区，MHA可快速判断并进行故障转移。
- 虚拟IP（VIP）：配置虚拟IP，当主节点因网络分区不可达时，备用节点可接管VIP，应用程序通过访问VIP来连接数据库，无需更改数据库连接配置。
节点硬件故障
- 冗余配置：采用一主多从或多主多从的架构。每个节点都有对应的备用节点，当主节点硬件故障时，备用节点能迅速提升为主节点。例如，在Galera Cluster中，任何节点故障都不会影响集群的整体运行，其他节点可继续提供服务。
- 自动故障检测与转移：利用工具如Pacemaker结合Corosync，实时监测节点状态。一旦发现节点硬件故障，自动将负载转移到其他健康节点。
数据损坏
- 定期备份：使用MySQL的逻辑备份工具（如mysqldump）和物理备份工具（如XtraBackup）定期进行全量和增量备份。例如，每周进行一次全量备份，每天进行增量备份。
- 数据校验：在数据库层面，可使用InnoDB引擎自带的数据页校验机制。在应用层面，定期对关键数据进行一致性检查，如通过计算数据的哈希值来验证数据完整性。
- 从备份恢复：若发现数据损坏，可从最近的可用备份恢复数据。同时结合二进制日志（binlog）进行数据的前滚恢复（Point - In - Time Recovery，PITR），尽可能恢复到故障前的状态。

操作步骤

网络分区
- 当心跳检测发现网络分区时，MHA首先尝试重新建立连接。若多次尝试失败，MHA会选择一个从节点提升为主节点，并将VIP切换到新的主节点。
- 通知应用程序数据库连接发生变化（可通过配置中心或消息队列），应用程序重新连接到新的主节点。
节点硬件故障
- Pacemaker检测到节点硬件故障后，通过Corosync向集群中的其他节点发送故障信息。
- 集群中的其他节点自动进行选举，选择一个备用节点提升为主节点，同时将相关服务（如数据库服务）切换到新的主节点。
数据损坏
- 发现数据损坏后，立即停止相关业务对该数据库的写入操作，防止进一步的数据破坏。
- 从最近的全量备份恢复数据，然后应用增量备份和二进制日志进行PITR。
- 在恢复完成后，对恢复的数据进行完整性校验，确保数据准确无误，之后再重新开放业务的读写操作。

对业务的影响评估

网络分区
- 短时间中断：在故障检测和故障转移期间，业务可能会出现短暂的数据库连接中断，一般在秒级到分钟级，具体取决于故障检测和转移的速度。对实时性要求极高的业务（如高频交易系统）可能会丢失少量交易，但对于大多数业务，这种短时间中断是可接受的。
节点硬件故障
- 服务切换影响：节点硬件故障导致的服务切换过程中，业务会有一定时间的不可用。时间取决于故障检测时间、选举时间和服务启动时间，通常在分钟级。对于一些需要持续在线的业务（如电商网站），可能会导致部分用户请求失败，但通过合理的缓存策略和重试机制，可降低对用户体验的影响。
数据损坏
- 数据丢失风险：从备份恢复数据可能会导致部分最新的数据丢失，丢失的数据量取决于上次备份到故障发生的时间间隔。对于数据完整性要求极高的业务（如金融业务），这可能会带来较大风险，需要通过更频繁的备份和更细粒度的恢复机制来降低数据丢失量。同时，恢复数据的过程可能需要较长时间，在此期间业务可能处于只读或不可用状态。

面试题：MySQL高可用性与业务连续性计划中的复杂故障应对策略

知识考点

面试题答案

技术手段

操作步骤

对业务的影响评估