面试题：MySQL高可用架构设计中的故障切换与数据恢复

故障检测流程

心跳检测：在MHA架构中，MHA Manager节点会定时向各个MySQL节点发送心跳包，以检测节点的存活状态。例如，每隔1 - 2秒发送一次心跳。如果连续多次（如3次）未收到主节点的心跳响应，初步判定主节点可能故障。在Galera Cluster中，节点之间通过gcomm协议进行状态信息交换，若节点在一定时间内未收到其他节点的状态信息，也会触发故障检测机制。
SQL线程检测：对于从节点，会检查其SQL线程的运行状态。如果从节点的SQL线程长时间处于异常（如复制延迟过大，或者由于主节点故障导致SQL线程无法继续应用中继日志），这也可能暗示主节点出现故障。例如，当复制延迟超过预先设定的阈值（如100秒），可能触发进一步的故障排查。

故障切换流程

MHA故障切换
- MHA Manager确认故障：MHA Manager在检测到主节点疑似故障后，会尝试通过多种方式（如SSH登录、尝试连接主节点MySQL服务等）进一步确认主节点是否真的故障。若确认主节点故障，会从多个从节点中挑选一个作为新的主节点。挑选规则通常基于从节点的复制延迟、硬件性能等因素。例如，优先选择复制延迟最小的从节点。
- 提升从节点为主节点：MHA Manager通过向选定的从节点发送命令，使其提升为主节点。例如，执行CHANGE MASTER TO命令停止从节点复制，并设置为可写状态。
- 重新配置从节点：MHA Manager会重新配置其他从节点，使其指向新的主节点，继续进行数据复制。例如，修改其他从节点的master_host、master_log_file等复制相关参数。
Galera Cluster故障切换
- 节点状态检测与共识：Galera Cluster中的节点通过gcomm协议进行状态信息交换，当检测到主节点故障时，剩余节点会通过内部的一致性算法（如Paxos算法的变体）进行共识，确定新的主节点。这个过程中，节点会交换各自的状态信息和日志位置等，以确保达成一致。
- 新主节点选举：通常会选择具有最新数据状态（如最大的全局序列ID）的节点作为新的主节点。一旦新主节点确定，集群会进行自我修复，其他节点会与新主节点同步数据，以达到一致状态。

保证数据一致性和完整性

二进制日志与中继日志：在MySQL复制中，主节点将数据修改记录在二进制日志（binlog）中，从节点通过I/O线程将主节点的binlog复制到本地中继日志（relay log），然后SQL线程应用中继日志中的记录，从而保持数据一致。在故障切换过程中，MHA会确保新主节点的二进制日志是完整的，并且从节点在重新连接新主节点后，能够正确应用未完成的中继日志。例如，MHA会在切换主节点前，尝试获取原主节点上所有从节点的中继日志位置，确保新主节点包含这些中继日志中的所有数据。
Galera Cluster同步机制：Galera Cluster采用同步复制机制，所有节点在写入数据时，会通过组通信协议（如gcomm）同步数据，确保所有节点的数据状态一致。在故障切换后，新主节点会与其他节点进行数据同步，缺失的数据会通过同步机制补齐，保证数据的完整性和一致性。例如，新主节点会向其他节点发送缺失的日志记录，其他节点接收并应用这些记录。

数据恢复机制

基于备份恢复：定期对MySQL数据库进行全量备份（如每周一次）和增量备份（如每天一次）。当发生故障且无法通过正常的复制机制恢复数据时，可以使用备份进行恢复。例如，先恢复全量备份，然后应用增量备份，使数据库恢复到故障前尽可能近的状态。
中继日志应用：在故障切换后，从节点会继续应用中继日志中的剩余记录，以确保数据的连续性。MHA会监控从节点的中继日志应用情况，确保数据能够完整恢复。例如，MHA会检查从节点的复制状态，确保SQL线程能够正确应用中继日志中的记录。

潜在风险及应对措施

数据丢失风险
- 原因：在主节点故障瞬间，如果部分数据还未写入二进制日志或者从节点还未完全复制这些数据，可能导致数据丢失。例如，在主节点发生崩溃时，正在执行的事务还未提交到二进制日志。
- 应对措施：可以通过设置MySQL参数sync_binlog = 1，确保每次事务提交时都将二进制日志刷写到磁盘；在Galera Cluster中，通过调整同步复制参数，确保数据在多个节点上及时同步。
脑裂风险
- 原因：在网络分区等情况下，可能出现部分节点认为原主节点故障并选举出新主节点，而原主节点实际上并未完全故障，从而出现两个“主节点”同时写入数据的情况。例如，网络短暂中断导致部分节点与原主节点失联，触发故障检测和切换。
- 应对措施：在MHA中，可以通过配置多台MHA Manager节点，并设置合适的网络检测机制，如增加网络心跳检测的频率和可靠性；在Galera Cluster中，可以设置仲裁节点（如使用奇数个节点组成集群，或者引入仲裁节点），避免脑裂情况发生。
复制延迟风险
- 原因：从节点由于硬件性能、网络延迟等原因，可能导致复制延迟较大，在故障切换时，可能会丢失较多数据。例如，从节点所在服务器的磁盘I/O性能较差，导致中继日志写入缓慢。
- 应对措施：定期监控从节点的复制延迟，对复制延迟较大的从节点进行优化，如升级硬件、优化网络配置；在选择新主节点时，优先选择复制延迟小的从节点。

面试题：MySQL高可用架构设计中的故障切换与数据恢复

知识考点

面试题答案

故障检测流程

故障切换流程

保证数据一致性和完整性

数据恢复机制

潜在风险及应对措施